eInfo网络情报搜索处理系统

软件说明

1 建设意义

近年来，随着互联网技术的发展与互联网信息市场的不断完善，网络的功能和网络信息内容发生了急剧的变化。由于网络媒体的交互性、内容的开放性、传播主体的开放性、跨时空等特点，网络已经成为信息交流和信息服务的平台。

借助于互联网通道，采用新的技术手段，对网络上的竞争情报信息进行监测，就可以了解行业生存特点，挖掘情报内涵，从而辅助决策。

我公司采用自主研发的搜索引擎技术、多格式文件内容提取技术、多语种分词分析技术、特征信息挖掘、语义分析、人工智能分析、模式识别、神经网络、海量全文数据存储管理、情报专题推送、分布式系统均衡调度等技术，对互联网上的情报，自动搜索、自动定位、自动分析、自动关联、主题检测、专题聚焦，实现用户的情报监测和专题追踪等信息需求。

2 业务处理功能

2.1 情报采集

2.1.1 采集的范围

可从如下10类情报表现形式中采集情报：

网站或网站频道
在线数据库
网络专题
网络评论专栏
网络即时评论或跟帖
网络论坛言论
博客
帖吧
点击排行
聚合新闻(RSS)

2.1.2 采集的情报类型

类型	文件格式说明
网页文件	html、dhtml、shtml、javascript文件等。
CGI程序执行结果	ASP程序结果、C#程序结果、PHP程序结果、JSP程序结果、Servlet程序结果、C/C++程序结果等。
MS Office文件	Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件。
OpenOffice文件	odt文件档案文件、odp简报文件、ods计算表文件、odg图形档案文件、odb资料库文件。
PDF文件	pdf文件。
其它文本格式文件	文本文件、RTF文件、xml文件、java文件等。
图片文件	jpg文件、gif文件、png文件、bmp文件等。
多媒体文件	mp3文件、midi文件、wav文件等。
压缩文件	gzip文件、bzip2文件、tar文件、zip文件、jar文件等。

2.1.3 采集的情报语种

可采集如下11个语种的情报信息：

中文、英文、日文、俄文、德文、法文、韩文、希腊文、捷克文、巴西文、荷兰文等。

2.1.4 采集的智能化

（1）可直接接入互联网采集，也可穿过代理服务器采集。

（2）可分析并处理WEB页重定向的问题。有的网站是在WEB服务器如IIS进行设置重定向的地址，有的则是在首页文件中，使用javascript进行网页重新定向。

（3）可以分析并处理Unix/Linux网站下文件重定向的问题。

（4）可以处理部分网站的花招，自动过滤网站为搜索引擎准备的垃圾信息。有的网站为搜索引擎准备了广告信息、或垃圾信息、或提示禁止搜索的信息等，本系统可模仿正常访问有效避免。

（5）可以突破部分网站的用户名和密码，搜索其内部网页。

（6）可以穿透部分硬件防火墙，同时，防止IP地址被硬件防火墙锁定。

（7）可以分析处理采用网页框架的网页。可以从网页文件、JavaScript程序段中，自动寻找网页链接。对不能分析的复杂的程序，可搜索下载这些程序，以便对搜索程序改进升级。

（8）网页表单是WEB应用程序收集用户真实数据的主要方式。表单允许用户输入信息到不同控件，然后将这些结果提交给WEB服务器，本系统就可以模仿用户自动填写表单，以获取更多的信息。

（9） Cookie使WEB服务器可以标记认可的用户，从而可以标识同一用户发送的后续请求，这样就可以有效地处理页面之间的用户认证问题。

（10）可自动进行排重处理，避免重复搜索，以提高搜索效率。

（11）可搜索IPv4协议的网站，也可搜索IPv6协议的网站。

2.1.5 采集的调度

（1）自动检测采集工作站、自动分配任务、自动均衡性能。

（2）集群中有多台采集工作站运行。

（3）每台采集工作站有多个任务执行。

（4）每个任务有多个线程实施。

（5）在搜索过程中，如果网络出现短暂故障，搜索程序自动判断并自动恢复运行。

（6）可断点续搜。

（7）可全新搜索，也可以增量搜索。

采用集群采集的好处是：

（1）保证了网络读写、CPU运行、磁盘存储、信息处理的更优配合。

（2）多线程可以避免采集工作站长时间的网络等待。

（3）多线程避免了由于程序错误而导致的整个系统崩溃退出，增加了系统的稳定性。

（4）满足超大型业务的处理需要。

2.1.6 采集的性能

在网络速度够快的情况下，单台采集工作站每天可采集259万个网页。

2.2 情报加工

2.2.1 自动分类

根据系统定义的情报分类，将搜索的信息自动归属到该情报分类下。

2.2.2 自动过滤垃圾信息

在网页上，有两部分内容:一部分是网页的主题信息,另一部分是与主题内容无关的导航条、广告信息等内容,我们称为噪音信息。为提高信息质量，必须过滤掉噪音信息。

2.2.3 自动提取文档内容

（1）能分析出网页标题和网页内容。

（2）能分析Word文件、Excel文件、PowerPoint文件、Visio文件、Outlook文件、XML文件、HTML文件、PDF文件、文本文件、RTF文件、Java文件、ZIP压缩文件、BZip压缩文件、GZip压缩文件、TAR压缩文件、MP3文件、MIDI文件、WAV文件等格式文件的内容。

（3）能分析中文、英文、日文、俄文、德文、法文等11种语种的信息。

（4）能从网页中提取图片属性，并按图片属性分别标识，方便检索利用。

（5）能从网页和文档中分析出关键词的值。

2.2.4 自动关联

系统能自动对信息进行分词，自动建立以词为基础的关联树，自动建立信息之间的关系，方便信息的利用。

2.2.5 自动查重

系统自动分析情报信息之间的匹配程度，结合信息标题进行检测，可较准确地去除重复情报信息。

2.2.6 支持人工加工情报

授权用户可删除情报。

2.3 情报审核

（1）情报经过采集、加工后，可进行审核，确认是否发布。

（2）只有审核通过的信息才能发布。

2.4 情报检索

2.4.1 所有信息检索

系统将检索所有可发布的信息。显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题，可阅读搜索下来的全文，点击搜索来源，可访问源网站网页。可设置信息的重要程度，能标识是否已阅读该信息。

2.4.2 更新信息检索

系统自动将当天的信息列出来，显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题，可阅读搜索下来的全文，点击搜索来源，可访问源网站网页。可设置信息的重要程度，能标识是否已阅读该信息。

2.4.3 最热信息检索

系统自动将各个情报分类下的访问量最高的信息列出来，显示信息重要程度、标题、搜索来源、搜索时间。点击信息标题，可阅读搜索下来的全文，点击搜索来源，可访问源网站网页。可设置信息的重要程度，能标识是否已阅读该信息。

淘SAAS

eInfo网络情报搜索处理系统

软件说明

2 业务处理功能

2.1 情报采集

2.1.1 采集的范围

2.1.2 采集的情报类型

2.1.3 采集的情报语种

2.1.4 采集的智能化

2.1.5 采集的调度

2.1.6 采集的性能

2.2 情报加工

2.2.1 自动分类

2.2.2 自动过滤垃圾信息

2.2.3 自动提取文档内容

2.2.4 自动关联

2.2.5 自动查重

2.2.6 支持人工加工情报

2.3 情报审核

2.4 情报检索

2.4.1 所有信息检索

2.4.2 更新信息检索

2.4.3 最热信息检索

2.4.4

作者: suifengmianlai

发表回复取消回复

软件说明

2 业务处理功能

2.1 情报采集

2.1.1 采集的范围

2.1.2 采集的情报类型

2.1.3 采集的情报语种

2.1.4 采集的智能化

2.1.5 采集的调度

2.1.6 采集的性能

2.2 情报加工

2.2.1 自动分类

2.2.2 自动过滤垃圾信息

2.2.3 自动提取文档内容

2.2.4 自动关联

2.2.5 自动查重

2.2.6 支持人工加工情报

2.3 情报审核

2.4 情报检索

2.4.1 所有信息检索

2.4.2 更新信息检索

2.4.3 最热信息检索

2.4.4

作者: suifengmianlai

UNIGINE VALLEY

移动警务应用平台系统

为您推荐

SysTools Access Recovery

Galadin OA企业办公自动化系统

redgate MySQL Comparison Bundle

公众-高速公路建设三维动态信息管理系统

泛越仓库条码管理系统

发表回复 取消回复

发表回复取消回复