软件说明
1 建设意义
近年来,随着互联网技术的发展与互联网信息市场的不断完善,网络的功能和网络信息内容发生了急剧的变化。由于网络媒体的交互性、内容的开放性、传播主体的开放性、跨时空等特点,网络已经成为信息交流和信息服务的平台。
借助于互联网通道,采用新的技术手段,对网络上的竞争情报信息进行监测,就可以了解行业生存特点,挖掘情报内涵,从而辅助决策。
我公司采用自主研发的搜索引擎技术、多格式文件内容提取技术、多语种分词分析技术、特征信息挖掘、语义分析、人工智能分析、模式识别、神经网络、海量全文数据存储管理、情报专题推送、分布式系统均衡调度等技术,对互联网上的情报,自动搜索、自动定位、自动分析、自动关联、主题检测、专题聚焦,实现用户的情报监测和专题追踪等信息需求。
2 业务处理功能
2.1 情报采集
2.1.1 采集的范围
可从如下10类情报表现形式中采集情报:
-
网站或网站频道
-
在线数据库
-
网络专题
-
网络评论专栏
-
网络即时评论或跟帖
-
网络论坛言论
-
博客
-
帖吧
-
点击排行
-
聚合新闻(RSS)
2.1.2 采集的情报类型
类型 |
文件格式说明 |
网页文件 |
html、dhtml、shtml、javascript文件等。 |
CGI程序执行结果 |
ASP程序结果、C#程序结果、PHP程序结果、JSP程序结果、Servlet程序结果、C/C++程序结果等。 |
MS Office文件 |
Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件。 |
OpenOffice文件 |
odt文件档案文件、odp简报文件、ods计算表文件、odg图形档案文件、odb资料库文件。 |
PDF文件 |
pdf文件。 |
其它文本格式文件 |
文本文件、RTF文件、xml文件、java文件等。 |
图片文件 |
jpg文件、gif文件、png文件、bmp文件等。 |
多媒体文件 |
mp3文件、midi文件、wav文件等。 |
压缩文件 |
gzip文件、bzip2文件、tar文件、zip文件、jar文件等。 |
2.1.3 采集的情报语种
可采集如下11个语种的情报信息:
中文、英文、日文、俄文、德文、法文、韩文、希腊文、捷克文、巴西文、荷兰文等。
2.1.4 采集的智能化
(1) 可直接接入互联网采集,也可穿过代理服务器采集。
(2) 可分析并处理WEB页重定向的问题。有的网站是在WEB服务器如IIS进行设置重定向的地址,有的则是在首页文件中,使用javascript进行网页重新定向。
(3) 可以分析并处理Unix/Linux网站下文件重定向的问题。
(4) 可以处理部分网站的 花招 ,自动过滤网站为搜索引擎准备的垃圾信息。有的网站为搜索引擎准备了广告信息、或垃圾信息、或提示禁止搜索的信息等,本系统可模仿正常访问有效避免。
(5) 可以突破部分网站的用户名和密码,搜索其内部网页。
(6) 可以穿透部分硬件防火墙,同时,防止IP地址被硬件防火墙锁定。
(7) 可以分析处理采用网页框架的网页。可以从网页文件、JavaScript程序段中,自动寻找网页链接。对不能分析的复杂的程序,可搜索下载这些程序,以便对搜索程序改进升级。
(8) 网页表单是WEB应用程序收集用户真实数据的主要方式。表单允许用户输入信息到不同控件,然后将这些结果提交给WEB服务器,本系统就可以模仿用户自动填写表单,以获取更多的信息。
(9) Cookie使WEB服务器可以标记认可的用户,从而可以标识同一用户发送的后续请求,这样就可以有效地处理页面之间的用户认证问题。
(10) 可自动进行排重处理,避免重复搜索,以提高搜索效率。
(11) 可搜索IPv4协议的网站,也可搜索IPv6协议的网站。
2.1.5 采集的调度
(1) 自动检测采集工作站、自动分配任务、自动均衡性能。
(2) 集群中有多台采集工作站运行。
(3) 每台采集工作站有多个任务执行。
(4) 每个任务有多个线程实施。
(5) 在搜索过程中,如果网络出现短暂故障,搜索程序自动判断并自动恢复运行。
(6) 可断点续搜。
(7) 可全新搜索,也可以增量搜索。
采用集群采集的好处是:
(1) 保证了网络读写、CPU运行、磁盘存储、信息处理的更优配合。
(2) 多线程可以避免采集工作站长时间的网络等待。
(3) 多线程避免了由于程序错误而导致的整个系统崩溃退出,增加了系统的稳定性。
(4) 满足超大型业务的处理需要。
2.1.6 采集的性能
在网络速度够快的情况下,单台采集工作站每天可采集259万个网页。
2.2 情报加工
2.2.1 自动分类
根据系统定义的情报分类,将搜索的信息自动归属到该情报分类下。
2.2.2 自动过滤垃圾信息
在网页上,有两部分内容:一部分是网页的主题信息,另一部分是与主题内容无关的导航条、广告信息等内容,我们称为 噪音 信息。为提高信息质量,必须过滤掉 噪音 信息。
2.2.3 自动提取文档内容
(1) 能分析出网页标题和网页内容。
(2) 能分析Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件、XML文件、HTML文件、PDF文件、文本文件、RTF文件、Java文件、ZIP压缩文件、BZip压缩文件、GZip压缩文件、TAR压缩文件、MP3文件、MIDI文件、WAV文件等格式文件的内容。
(3) 能分析中文、英文、日文、俄文、德文、法文等11种语种的信息。
(4) 能从网页中提取图片属性,并按图片属性分别标识,方便检索利用。
(5) 能从网页和文档中分析出关键词的值。
2.2.4 自动关联
系统能自动对信息进行分词,自动建立以词为基础的关联树,自动建立信息之间的关系,方便信息的利用。
2.2.5 自动查重
系统自动分析情报信息之间的匹配程度,结合信息标题进行检测,可较准确地去除重复情报信息。
2.2.6 支持人工加工情报
授权用户可删除情报。
2.3 情报审核
(1) 情报经过采集、加工后,可进行审核,确认是否发布。
(2) 只有审核通过的信息才能发布。
2.4 情报检索
2.4.1 所有信息检索
系统将检索所有可发布的信息。显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题,可阅读搜索下来的全文,点击搜索来源,可访问源网站网页。可设置信息的重要程度,能标识是否已阅读该信息。
2.4.2 更新信息检索
系统自动将当天的信息列出来,显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题,可阅读搜索下来的全文,点击搜索来源,可访问源网站网页。可设置信息的重要程度,能标识是否已阅读该信息。
2.4.3 最热信息检索
系统自动将各个情报分类下的访问量最高的信息列出来,显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题,可阅读搜索下来的全文,点击搜索来源,可访问源网站网页。可设置信息的重要程度,能标识是否已阅读该信息。