特定类型信息文件的识别方法和装置制造方法及图纸

技术编号:2857544 阅读:257 留言:0更新日期:2012-04-11 18:40
提供了一种文件识别装置和方法,用于对从因特网中收集的web页面或存储在其它存储装置中的文件群进行特定信息类型的识别,本发明专利技术的装置包括:文件分组部,其按照特定的观点对待识别的文件群进行文件类型分类;文件类型识别部,其根据所述特定信息类型所特有的特征识别文件的类型;以及文件类型识别修正部,其从全组文件识别精度的大局出发,对各个文件识别结果进行修正。本发明专利技术的装置和方法可以对各种类型的信息进行识别,并可以实现非常好的识别精度。

【技术实现步骤摘要】

本专利技术涉及一种特定类型信息文件的识别方法和装置
技术介绍
信息的存储通常是以文件的形式存在,并以文件形式进行归档,同样地,广泛存在于互联网上的信息也是以WEB文件形式进行发布和传输。随着互联网的快速发展,WEB文件的信息量已经越来越庞大,并占据着重要的分量,这使得互联网上的信息处理技术如WEB文件归类、检索等的重要性显得更为突出。伴随着网络的高速发展,用户对网上信息的需求也日益趋于多样化。通常,以字符串匹配的搜索方法可以很好地满足用户对精细信息的查询要求。然而对某些以信息类型为特征的文件群分类或识别,效果却不尽人意。在网络高速发展的今天,WEB页面所承载的信息已高度的集成化,其内容表现的越来越复杂和多样化。如超链接信息、超媒体信息等许多信息内容已经成为WEB页面不可或缺的一部分。这在一定程度上很好地增加了传递的信息量并改善了用户接口,但另一方面也导致了WEB页面结构的复杂化。使得WEB信息出现了多种不同主题,增加了主信息内容的噪声。目前,许多从事于WEB信息处理的研究人员也提出了多种WEB信息分块的方法来企图准确理解并提取出主要信息,如Ziv Bar-Yossef and Sridhar Rajagopalan 2002.TemplateDetection via Data Mining and its Applications.In Proceedings ofthe WWW2002,May 7-11,2002,Honolulu,Hawaii,USA. Shian-Hua Lin,Jan-Ming Ho 2002.Discovering InformativeContent Blocks from Web Documents.SIGKDD’02,July 23-26,2002,Edmonton,Alberta,Canada. 我们知道,WEB信息是利用HTML描述语言对WEB上所承载的信息进行组织表示,并利用WEB浏览器对其进行解释显示给终端用户。从表面上看,这种信息流是一种线性的文本信息流,而实际上,该WEB信息流具有一定的组织结构。对WEB信息进行处理首先就要对WEB文件的组成结构进行分析,这也是WEB页面信息处理的一个关键技术。WEB页面利用HTML描述语言对网页内容进行组织,其信息结构可以映射为一棵以HTMLTag和WEB文本信息为节点的文档DOM(Document Object Model)树。现有的浏览器也是通过分析出WEB的DOM树结构,并在这个基础上对WEB进行显示。WEB页面上的文本信息通过HTML定义的Tag与要传递的信息有机地组织在一起。我们也可以通过分析Tag的功能属性对WEB信息结构树进行处理。(Ziv Bar-Yossef 2002)提出的是一种利用相对简单的启发式网页分块方法,该方法利用DOM树及HTML Tag标记的不同属性把网页的内容按照信息的语义连贯性对WEB页面进行区域划分,以达到不同主题信息分割的目的。(Shian-Hua Lin 2002)提出了用HTML中的Tag标记如<Table>等制表符号对WEB页面的信息块进行侦测分割。可见以上的两种方法都是利用HTML Tag标记的不同属性对WEB页面进行分割,以期提取出用户感兴趣的信息内容。
技术实现思路
为了解决上述的以信息类型为特征的文件群分类与识别的问题,本专利技术提供了一种特定类型信息文件的识别方法和装置,其能对从因特网中收集的WEB页面或存储在其它相关存储器中的文件群进行基于文件类型的识别。考虑到同类型文件本身拥有排它属性,可以有效地用在文件的类型识别中,本专利技术对输入的文件群进行分组,这同时达到一个文件样本预分类的目的,从而为提高系统的识别精度打下基础。根据本专利技术的一个方面,提供了一种文件识别装置,其包括文件分组部,其把识别对象的文件群按照URL、作者名称等不同观点进行文件类型分类,根据不同的文件属性进行分组,使得后续的识别模块可以很好地根据各个分组的文件特性进行识别,该分组部同时起到了样本预分类的目的,提高了系统最终的识别精度;文件类型识别部,其根据WEB页面的内在DOM结构及HTML Tag属性对文件进行主信息块提取,并可以进行歌词、日记、BBS等特定信息类型判别,该部根据上述类型等特定信息本身所具有排它特征,如利用关键字特征、标点符号特征、文档结构特征、文档内容的重复出现等相关特定对文件类型进行识别;文件类型识别修正部,其从全组文件识别精度的大局出发,结合每个离散的文件识别结果,侧重考虑本组所有文件的整体识别准确率,对本组的所有文件识别结果进行修正,从而到达提高所有文件的整体识别精度的目的。优选地,在本专利技术的文件识别装置中,文件类型识别部包括一个主信息块抽取部,其去除文件中与文件本身无关的噪音部分,只抽取出主要部分。优选地,在本专利技术的文件识别装置中,文件类型识别修正部统计当前文件子分组的每个文件识别结果,把当前文件子分组视为一个整体,计算该文件子分组中被识别为正例的文件个数与当前文件子分组的文件个数的比值,并根据先验阈值判定当前文件子分组。根据本专利技术的另一个方面,提供了一种文件识别方法,用于对从因特网中收集的web页面或存储在其它存储装置中的文件群进行特定信息类型的识别,该方法包括以下步骤按照特定的观点对待识别的文件群进行文件类型分类;根据所述特定信息类型所特有的特征识别文件的类型;从全组文件识别精度的大局出发,对各个文件识别结果进行修正。优选地,在本专利技术的文件识别方法中,识别文件类型的步骤还包括一个主信息块抽取步骤,其中去除文件中与文件本身无关的噪音部分,只抽取出主要部分。优选地,在本专利技术的文件识别方法中,在所述的修正步骤中,统计当前文件子分组的每个文件识别结果,把当前文件子分组视为一个整体,计算该文件子分组中被识别为正例的文件个数与当前文件子分组的文件个数的比值,并根据先验阈值判定当前文件子分组。附图说明图1表示特定类型信息文件的识别装置结构图;图2表示文件类型识别部的结构图;图3表示文件类型识别部中的文件子分组模板信息提取部的实现结构图;图4表示文件类型识别部的文件子分组模板信息提取部中的网页分析过程图;图5表示一个网页文件的DOM树图例;图6表示子分组模板信息提取单元的实现流程图;图7表示文件类型识别部中的文件主信息块提取部的实现结构图;图8表示子分组文件主信息块提取的实现流程图;图9表示文件类型识别部中的文件主信息块识别部的实现结构图;具体实施方式下面参照附图,以歌词网页的识别为例,对本专利技术的特定类型信息文件识别装置和该装置中采用的识别方法的实施例进行说明。图1是本专利技术的文件识别装置的简要结构示意图。本专利技术的文件识别装置由输入数据和输出数据以及以下3个主要部分组成包括(1)文件分组部;(2)文件类型识别部;(3)文件类型识别修正部。下面,分别对其进行详细说明。本专利技术的识别装置的输入数据是从因特网中收集的WEB页面或存储在其它相关存储器中的文件群。输出数据为通过本识别装置处理后的两种文件分类集合,即正例识别结果集合和反例识别结果集合。正例识别结果为通过本系统进行识别的某一特定信息类型,如本实施例中被识别为歌词网页这一特定信息类型的文件;反例识别结本文档来自技高网
...

【技术保护点】
一种文件识别装置,用于对从因特网中收集的web页面或存储在其它存储装置中的文件群进行特定信息类型的识别,该装置包括:文件分组部,其按照特定的观点对待识别的文件群进行文件类型分类;文件类型识别部,其根据所述特定信息类型所特有的 特征识别文件的类型;以及文件类型识别修正部,其从全组文件识别精度的大局出发,对各个文件识别结果进行修正。

【技术特征摘要】
1.一种文件识别装置,用于对从因特网中收集的web页面或存储在其它存储装置中的文件群进行特定信息类型的识别,该装置包括文件分组部,其按照特定的观点对待识别的文件群进行文件类型分类;文件类型识别部,其根据所述特定信息类型所特有的特征识别文件的类型;以及文件类型识别修正部,其从全组文件识别精度的大局出发,对各个文件识别结果进行修正。2.根据权利要求1所述的文件识别装置,其中所述文件类型识别部包括一个主信息块抽取部,其去除文件中与文件本身无关的噪音部分,只抽取出主要部分。3.根据权利要求1所述的文件识别装置,其中所述的文件类型识别修正部统计当前文件子分组的每个文件识别结果,把当前文件子分组视为一个整体,计算该文件子分组中被识别为正例的文件个数与当前文件子分组的文件个数的比值,并根据先验阈...

【专利技术属性】
技术研发人员:王主龙于浩西野文人
申请(专利权)人:富士通株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1