神通t-bees 网络信息采集系统,共有五个功能模块,分别是流程定义管理、流程实例管理、站点管理、分类管理、全局设置。系统采用两条流程为主线串联系统功能,一个是“网页内容采集流程”,该流程的主要目的是完成从互联网上采集用户指定的站点的所有网页的内容,一个是“网页内容模板解析流程”,该流程的主要目的是对“网页内容采集流程”执行完毕之后,对采集的到网页文件,按照业务需求定制内容解析模板,进行内容解析,完成“非结构化”到“结构化”的转换。
网页爬取:对爬取的流程进行设计,通过新建流程、查看流程、保存流程、删除流程、执行流程、调度流程、监控流程、终止流程以及结果导出等操作,实现对网页内容采集流程和网页内容模板解析流程的整个生命周期的管理。在网页内容模板解析中,通过定制内容解析模板,对爬取到的网页内容进行解析,实现将非结构化网页转换成结构化数据,从而提取网页中的表格数据。并基于聚类技术,实现定义最少的解析模板,解析最多的网页内容。
爬取结果加工:对爬取到的网页进行自动的加工和处理,基于机器学习和自然语言处理技术,将web格式的网页转换为纯文本文件,对重复采集的网页进行去重,对同源网页进行版本对照,对网页的内容进行的自动分类和自动聚类,为将加工后的网页生成索引以便检索。