成都探码科技有限公司 更新时间:2024-08-20
发表一下对此产品的看法吧~
我要评价
心中疑惑就问问用过此产品的同学吧~
我要提问
探码科技基于云计算研发的探码Web大数据采集,是一个强大的集大数据采集,分析和可视化为一体的大数据采集平台。利用众多的云计算服务器协同工作,能快速采集大量数据,避免了一台计算机硬件资源的瓶颈。探码新一代智能采集器,模拟人工智能,解决传统post采集的技术难题,达到高标准的采集要求。
探码Web大数据采集系统分为8个子系统,分别为大数据集群系统、数据采集系统、采集数据源调研、数据爬虫系统、数据清洗系统、数据合并系统、任务调度系统、搜索引擎系统。
本系统可以储存TB级采集到的数据,实现数据持久化。数据存储采用MongoDB集群方案,此方案在集群上有两大特点:
本系统配置Kapow、PhantomJS、Mechanize采集环境,运行于Docker容器中,由Rancher编排容器。
本系统是在“数据爬虫系统”开始之前,必不可少的一个环节,经过调研,得出需要采集页面、过滤的关键字、需要提取的内容等。
爬虫程序都是独立的个体,结合需要的数据采集系统服务器,通过Rancher编排,自动在DigitalOcean中启动爬虫程序,根据输入参数,抓取到指定的数据,然后通过API发送回我们的大数据集群系统。
本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,展示出爬虫程序抓取到的数据,方便我们进行清洗。数据清洗系统主要由两部分组成:
本系统通过Ruby on Rails + Vue技术框架,实现Web前端展示,对数据进行合并。数据被清洗之后,数据合并系统会自动匹配大数据集群中的数据,通过相识度评分,关联可能相识的数据。通过Web前端展示匹配结果,可以人工或自动合并数据。
本系统通过Ruby on Rails + Vue技术框架,Sidekiq队列调度,Redis调度数据持久化,实现Web前端任务调度系统。通过任务调度系统,可以动态开启、关闭,定时启动爬虫程序。
本系统通过ElasticSearch集群,实现搜索引擎服务。搜索引擎是PC端检索系统能够从大数据集群中、快速地检索数据的必要工具,通过ElasticSearch集群,运行3个以上的Master角色保证群集系统的稳定性,2个以上Client角色保证查询的容错性,2个以上的Data角色保证查询、写入的时效性。通过负载均衡连接Client角色,分散数据查询压力。