软件说明
神通T-Bees 网络信息采集系统,共有五个功能模块,分别是流程定义管理、流程实例管理、站点管理、分类管理、全局设置。系统采用两条流程为主线串联系统功能,一个是“网页内容采集流程”,该流程的主要目的是完成从互联网上采集用户指定的站点的所有网页的内容,一个是“网页内容模板解析流程”,该流程的主要目的是对“网页内容采集流程”执行完毕之后,对采集的到网页文件,按照业务需求定制内容解析模板,进行内容解析,完成“非结构化”到“结构化”的转换。 网页爬取: 对爬取的流程进行设计,通过新建流程、查看流程、保存流程、删除流程、执行流程、调度流程、监控流程、终止流程以及结果导出等操作,实现对网页内容采集流程和网页内容模板解析流程的整个生命周期的管理。在网页内容模板解析中,通过定制内容解析模板,对爬取到的网页内容进行解析,实现将非结构化网页转换成结构化数据,从而提取网页中的表格数据。并基于聚类技术,实现定义较少的解析模板,解析较多的网页内容。 爬取结果加工: 对爬取到的网页进行自动的加工和处理,基于机器学习和自然语言处理技术,将Web格式的网页转换为纯文本文件,对重复采集的网页进行去重,对同源网页进行版本对照,对网页的内容进行的自动分类和自动聚类,为将加工后的网页生成索引以便检索。 关键特征 流程定制可视化:可以定制“网页爬取流程”和“网页内容解析和导出”等多种类型的流程。流程的每个节点提供细粒度的控制参数,可供高级用户进行性能调优,对普通用户,接受默认参数即可开始爬取。其中对“网页内容爬取流程”,可以指定一个或者多个起始URL进行爬取,起始站点的数量不受限制,可以任意增加。流程既可以单机执行,也能分布式执行。 流程监控可视化:流程在执行过程中,可以以图形化的方式监控流程的执行,查看当前正在执行的节点,已经执行的节点可以查看节点的输入输出文件的内容,可以显示流程执行过程中的日志信息,方便随时了解系统运行的内部状态。