icon八爪鱼-核心优势icon

全球全网通用的互联网数据采集平台,可简单快速地将网页数据转化为结构化数据,存储于EXCEL或数据库等多种形式,并且提供基于云计算的大数据云采集解决
方案,实现精准、高效、大规模的数据采集。

极简采集
通用的大数据采集平台,无需编程,自动生成采集规则可视化流程,配置灵活,帮助用户快速获取互联网公开数据,轻松掌握数据采集技能。
全网通用
互联网公开数据99.9%均可采集,包括各类最新新闻、政务公告、招投标、房地产、社交媒体、金融证券、电商平台及其他各种类型网站数据。
icon八爪鱼-采集原理icon

平台采用C/S架构,应用智能识别算法、可视化流程配置、海量采集模板便利于用户快速上手使用,通过云采集平台、高可匿代理IP池、自动打码系统提升数据采集质量,数据采集完成后可导出Excel、CSV、HTML、JSON、数据库(SQLsever、Mysql、Oracle),同时可通过AP|形式推送至客户业务系统进行查询和应用。

 

icon八爪鱼-前端功能icon
智能识别算法内嵌
系统内置智能识别算法,能够从杂乱网页中智能识别并展示网页内所有数据字段及内容,并支持页面下钻。
多种“防封禁”措施
拥有高可匿代理IP池、登录态采集、浏览器切换自动打码功能、保存cookie等多种防封禁措施。
异构数据统一处理
支持正则表达式等方式对文字、链接、图片、音视频等多种模态数据结构化输出与应用,实现数据简单清洗。
定时采集无需值守
系统可自定义采集时间,支持分钟/小时/天/周/月的采集规则,程序无需启动任务即可在云端完成采集任务。
高速数据采集与吞吐
全球超过7000台服务器进行分布式、高并发采集,海内外多云架构,系统吞吐量(TPS)达100万条/分钟。
附件自动下载保存
本地采集功能支持文本、图片、音视频、文档、压缩包等多种格式的附件一键下载并保存至指定位置。
icon八爪鱼-全球服务集群部署icon

拥有全球7000+台云服务器资源,日均吞吐数据10亿+条,已在美国、欧洲、东南亚等地部署服务集群,海量高可匿IP资源保障全球数据采集稳定、高效

 

icon八爪鱼-项目服务方式icon
私有化部署
1.数据安全:系统本地部署,可实现内外网隔离,内部经营数据不外泄,数据安全性高。
2.拓展性强:企业能自主二次开发,可通过SDK接口集成单位现有的业务系统。
安全保障、永久授权
国产化适配
1.全套信创环境部署
2.支持达梦数据库
3.支持麒麟系统部署
4.支持国产化中间件
响应国家战略规划要求
SaaS服务
1.覆盖信源广:实现异构数据采集与结构化处理
2.数据质量高:数据质量高于90%,提供人工与机器复核
3.交付方式多:支持数据库、API、ftp、CSV等多种形式
采集灵活、服务高效
icon八爪鱼项目案例-三一重工政策情报平台icon
项目背景

➢ 作为全球装备制造业领先企业之一,打造集团数据中心,支撑个业务部门数据需求。
➢ 伴随用户数量激增及业务高速增长,当前三一需要建立三一政策库,这方面依赖于发改委、科技厅等大量官方合法合规数据,这就要求使用爬虫技术获取这些信息源。
➢ 考虑到后续还有其他项目可能会使用到海量数据采集的功能,故考虑将爬虫能力平台化,以便于后续提供给其他部门使用。

提供服务

➢ 服务集团内部各类互联网数据需求,动态采集重点国家和地区的新闻、政策与产业数据。
➢ 支持本地采集的过程中下载网页上的文件包括图片、音频、视频、文档等多种格式。
➢ 八爪鱼私有化部署系统登录需要与三一内部SSO登录集成打通,支持RBAC权限体系。
➢ 切换代理IP、验证码自动打码对接其他公司接口,代码剥离能够支持切换供应商。

服务效果

➢ 八爪鱼为三一集团提供互联网公开数据获取能力,辅助构建三一政策库,每日增量提供国家政策、农机补贴类数据采集,服务业务部门进行补贴申报,提升企业净利润。
➢ 实时提供其希望获取的互联网公开数据,避免各部门单独采购数据服务造成沟通成本的增加和资源的浪费,提升集团工作效率。
➢ 政策库的构建完成后可以根据其政策类型分发给各个业务相关部门进行申报。

icon八爪鱼项目案例-清华大学ICPI平台icon
1、项目目标:居民消费价格指数(iCPI)是最重要的宏观经济指标之一。探索利用在线数据构造实时高频CPI、精准捕捉典型事件影响、现时预测通货膨胀、实时监测宏观经济形势,从而建立起时效性更强、可靠性更高的宏观经济描述和预测的方法与体系。
2、建设内容:iCPI是一支基于互联网在线价格数据进行实时更新的居民消费价格指数可以分为食品烟酒、衣着、居住、生活用品及服务、交通和通信、教育文化和娱乐、医疗保健、其他用品和服务等八个大类,数据来源于上百个平台。
3、提供服务:八爪鱼为清华大学“清数”团队长期提供全平台数据采集能力,支持八大领域(食品烟酒、医疗保健、交通和通信、生活用品及服务等)的基础数据采集与预处理为“清数”团队建设iCPI指数平台提供底层数据采集能力。
icon数据服务介绍icon

基于多年数据采集核心技术攻关经验与资源积累,重点开拓境内外新闻、境内外社交、全球政策、本士/跨境电商平台、全国房产信息的大数据采集与处理的全流程服务方案,可为政府、高校、大型企业提供完备的数据采集、清洗、交付一站式的数据服务。

 

采集行业领先
✓ 10年数据采集行业积累,数据采集攻关能力强
✓ 成熟的数据监控系统,保障数据采集正常进行
✓ 全球7000台云服务器高并发,保障大规模数据采集
服务经验丰富
✓ 日均10亿+数据入库,多领域多类型数据覆盖
✓ 具备经验丰富的科学的项目管理流程与项目服务团队
✓ 高响应性的配合支持力度与支持能力
多项成功案例
✓ 已成功交付腾讯、平安、华为等多个大型数据服务项目
✓ 成为平安优质供应商
icon数据服务核心价值icon

 

数据源多且防采集严重
适合目标信源众多且数据时效性要求高,使用八爪鱼工具会被网站封禁的(如境内外社交、电商平台)。
多模态数据清洗
适合具有文字、链接、图片、视频、音频、源码等多种数据类型,且各个平台字段数、字段格式不统一需要精细化清洗的,对数据质量要求较高的用户。
第三方业务系统对接与还原展示
适合采集结果需秒级导出到用户数据库或者第三方业务系统且需要对原网页进行1:1还原展示的内网环境。
icon项目数据服务能力icon

 

icon数据服务案例-中集集团科技情报平台icon

本项目为中集科创平台提供国内外最新产业政策、最具专业的技术研究成果和最前沿的科技创新成果,帮助中集科研人员掌握国内外最新科技资讯,多维度展示新政策/新材料/新能源/新产品/智能化等重点领域国内外最新前沿的技术资讯。

集数据
·指定境内外新闻网站、政策网站及微信公众号等多个信息平台
·系统通过采集文本、图片、视频数据并存储到数据库中

数据清洗
·针对数据需求对数据字段进行格式化清洗(标题、间距等)
·根据文件传输接口对非结构化数据(图片视频)进行锚点处理

数据还原
·清洗数据通过API对接到目标平台中进行1:1展示还原
·对每日咨询进行动态更新,通过平台进行分发提升服务价值
icon数据服务案例-平安金服集采价格监控平台icon

本项目主要解决客户集采商城运营过程中,商品价格监测手段采用上架前人工逐一审核、上架后人工动态抽查及历史价格走势查阅等低效率的问题。随着用户数量和商品需求量日益增长,商品监测运营压力不断增加,希望通过多平台数据采集来助力运营部门加强商品价格监测管理,实现集采商城价格智能比对和告警。

 

 
01 全品类价格精准采集
■ 监测渠道覆盖全国主流电商平台,包括天猫、京东、淘宝、晨光等
■ 外部主流电商平台的商品价格与拟上架商品的价格进行比对,超限智能预警

02 同款/相似商品识别服务
■ 在集采商城内部和外部电商平台进行同款商品识别(一般为6个SKU)
■ 提供商品价格参考值和合理价格区间供用户参考
icon公司概况icon

数阔信息(SKIEER)是全球领先的大数据及场景应用服务商,专注于大数据及人工智能技术的产品研发和应用,为全球范围内的政府。企业、机构,提供数据获取能力、数据分析能力和行业场景化解决方案。

 

专注大数据及人工智能技术产品研发
■ 八爪鱼数据采集平台/八爪鱼RPA
■ 云听CEM客户体验管理平台/数阔VOC
■ 数阔智能助理
团队成员构成情况
■ 创始人刘宝强,毕业于国防科技大学,十年大数据行业经验
■ 公司员工人数超200人,研发人员占比超70%
■ 专业的NLP团队,硕士研究生及以上学历占比超60%
近10年数据领域服务经验
■ 全球4.000.000+SaaS用户,10.000+企业与政府客户
■ 总部深圳,在北京、上海、洛杉矶、巴黎等多地设分支机构
■ 业务范围覆盖中、英、日、西、法、德等超30个语种
icon发展历程icon

数阔自2014年起,已获得拓尔思、协同创新基金、中信资本、红点创投、奇绩创坛、华义创投、景毅投资等多家机构及个人资本的认可与加持

 

icon业务布局icon

遍布全球的国际化团队和服务体系:以深圳为总部,办公团队覆盖重庆、北京、上海、东京、洛杉矶、西雅图、巴黎、柏林、马德里等全球多个城市,通过全球化思维和完善的服务体系,为客户提供优质服务。

 

icon荣誉资质icon

 

icon核心优势icon

数据采集领域行业NO.1

1. 经验丰富
RPA模拟真人行为采集及成熟数据监控系统有效保障采集实时性稳定性与完整性。
2. 技术领先
近三百人团队,研发人员超70%,数据采集能力和质检算法业界领先。
3. 资源充足
超过7000+台云服务器多线程高并发采集,支撑日均十亿条大规模消费者反馈数据的高效沉淀。
4. 应用全面
覆盖场景丰富,赋能于近万家科研创新企业、两千家高校、百余家开源情报机构及体验管理品牌方。
icon核心优势icon

自研细颗粒度AI模型 NLP技术行业领先

 
 
➢ 支持针对个性化产品品类,从品牌的业务视角出发,定制细颗粒度指标体系,搭建NLP语义理解模型,基于机器学习技术,精准识别海量用户声音中每一个重要细节和关键信息。

➢ 提供实时模型优化和迭代服务,可随业务变化个性化调整指标体系及模型。
icon核心优势icon

300+覆盖消费品类    30000+体验分析指标    英+中双引擎分析模型

 

icon客户行业分布icon

 

 
产品推荐 查看更多>>
    百度智能云号码认证服务平台PNVS

    百度智能云号码认证服务平台PNVS是根据网民搜索以及企业品牌需求,当网民搜索企业号码相关关键词时展示企业号码认证相关信息的号码卡。

    触达优势

    风控技术

    认证流量优势

    端覆盖优势

    润普企业内容管理平台ECM

    润普文档管理软件为政企提供海量文档资料的安全集中存储空间,支持文档的共享和审核协作管理,并提供强大的文档检索机制。实现集中存储部门、项目、产品等文档,高效文档协作,安全共享和审批。

    统计报表

    权限管理

    操作日志审计

    高度匹配

    华为云域名注册服务

    华为云域名注册服务是提供域名注册、域名管理的综合性服务,联合华为云免费备案网站、DNS免费云解析服务、云服务器、 网站开发、SSL证书等帮助用户提供一站式建站解决方案。

    云解析服务

    云服务器

    网站开发

    SSL证书