用于非监督式信息提取的方法和设备技术

技术编号:21282413 阅读:47 留言:0更新日期:2019-06-06 12:27
一种将有信息量内容添加到电子知识库的方法包括根据多个网站来生成多个数据库表,每个数据库表基于对应的网站;以及单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容。所述方法此外包括将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所述有信息量内容添加到电子知识库。

Method and equipment for unsupervised information extraction

A method of adding information content to an electronic knowledge base includes generating multiple database tables based on multiple websites, each database table is based on the corresponding website, and processing each database table separately to identify potential information content from each database table. The method also includes identifying potential content with information content in the first predetermined number of database tables included in the plurality of database tables as content with information content, the first predetermined number being greater than one, and adding all information content to the electronic knowledge base.

【技术实现步骤摘要】
【国外来华专利技术】用于非监督式信息提取的方法和设备
本公开内容涉及信息提取的领域,并且特别地涉及改善通过非监督式信息提取所生成的数据的有用性。
技术介绍
大量数据作为HTML网站被存储在因特网上。典型地,以人类读者容易理解的方式组织和呈现数据。例如,在查看包含对合适的停车场区域进行描述的信息的网站的网页中,人类读者典型地能够定位并且理解相关信息。人类读者针对上下文线索或标注而略读网页,所述上下文线索或标注指向或建议相关信息的位置。即使信息被包含在表格中或被混合在文本框内,人类读者也定位相关信息。在定位了相关信息之后,人类读者记录信息或对其做出心记使得相关信息可以在适当的时间、诸如当导航到所期望的停车场区域的时候被使用。如以上所阐明的,人类读者能够略读多段网页并且定位相关信息是几秒钟的事情;然而,对于计算机而言难以从网页中高效地标识相关信息。信息提取(“IE”)是指使用计算机来从网站提取相关信息的过程。所提取的信息然后被存储到通过其它计算机容易可访问且可搜索的经组织的相关信息的数据库。IE的已知方式是监督式或非监督式的。监督式的IE需要工程师或技术员回顾从网站所提取的信息并且手动地确定信息是否是合期望的。也就是说,工程师或技术员手动地在无用或无兴趣的信息与有用或引起兴趣的信息之间进行辨别。工程师使得计算机通过如下操作来将有用、引起兴趣和/或有信息量的信息(在下文中统称为“有信息量内容”)存储到数据库并且丢弃无用或无兴趣的信息:创建规则集或训练示例以用于计算机遵循。规则和训练示例中的一些可特定于仅仅单个网站或网页的所提取的信息;然而,其它规则可具有更全局的使用,使得随着时间计算机在标识有信息量内容方面可变得更高效。非监督式的IE不需要工程师或技术员创建规则来用于确定所提取的信息是否有用或引起兴趣。代替地,参与非监督式IE的计算机在所提取的信息之上执行统计分析以标识有信息量内容并且以数据库表的形式输出所期望的数据。由于非监督式IE需要很少至无人类干预,所以它通常比监督式IE更快且更高效。非监督式IE与监督式IE相比典型地不太准确。典型地,执行非监督式IE的已知系统生成“假阳性”,其是如下数据:人类将会认为所述数据无用或无兴趣,但是计算机确定为是有用或引起兴趣的。当系统将假阳性存储到有信息量内容的知识库的时候,系统的准确性降低。此外,如果不以符合计算机所应用的统计分析途径的方式呈现网站的信息内容,那么计算机可能不恰当地提取并且组织有信息量内容。非监督式IE具有更高效地将有信息量内容添加到知识库的潜能。然而,存在增大非监督式IE的精度和查全率的持续的需要。因而,在非监督式IE的领域中的进一步的发展是合期望的。
技术实现思路
根据本公开内容的示例性实施例,一种用于将有信息量内容添加到电子知识库的方法包括:根据多个网站来生成多个数据库表,每个数据库表基于对应的网站;以及单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容。所述方法此外包括将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所述有信息量内容添加到电子知识库。根据本公开内容的另一示例性实施例,一种信息提取系统包括可操作地连接到因特网并且包括处理器的远程计算机,所述处理器被配置成:根据经由因特网可访问的多个网站来生成多个数据库表,每个数据库表基于对应的网站;单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容;将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所标识的有信息量内容添加到电子知识库。附图说明通过参考以下详细描述以及附图,上述特征和优点以及其它应当变得对于本领域普通技术人员而言更加容易清楚,在所述附图中:图1是如本文中所公开的非监督式信息提取系统的框图;图2是具有将由图1的非监督式信息提取系统来提取的数据的示例性第一网站的框图;图3是具有将由图1的非监督式信息提取系统来提取的数据的示例性第二网站的框图;图4是一流程图,其图示了操作图1的信息提取系统的示例性方法;图5图示了与图2的网站相关联的示例性数据库表;图6图示了与图3的网站相关联的示例性数据库表;图7图示了来自图5的数据库表的所选数据群组,来自图6的数据库表的另一所选数据群组,以及基于来自所选数据群组的数据项的评分向量的表;图8图示了来自图5的数据库表的所选数据群组,来自图6的数据库表的另一所选数据群组,以及基于来自所选数据群组的数据项的评分向量的表;图9A是针对包括来自机场网站的数据的语料库的精度相对于语料库大小的图;图9B是针对包括来自机场网站的数据的语料库的查全率相对于语料库大小的图;图9C是针对包括来自机场网站的数据的语料库的F-评分相对于语料库大小的图;图9D是针对包括来自医院网站的数据的语料库的精度相对于语料库大小的图;图9E是针对包括来自医院网站的数据的语料库的查全率相对于语料库大小的图;并且图9F是针对包括来自医院网站的数据的语料库的f-评分相对于语料库大小的图。具体实施方式为了促进理解本公开内容的原理的目的,现在将参考在附图中所图示的以及在以下所撰写的说明书中所描述的实施例。理解到,从而不意图对公开内容范围的任何限制。此外理解到,本公开内容包括对所图示的实施例的任何变更和修改,并且包括如本公开内容所关于的领域中的技术人员通常将会想到的本公开内容原理的另外的应用。在随附的描述中公开本公开内容的各方面。可以设计本公开内容及其等同物的可替换实施例,而不离开本公开内容的精神或范围。应当注意到,本文中关于“一个实施例”、“实施例”、“示例性实施例”等等的任何讨论指示:所述的实施例可以包括特定特征、结构或特性,并且这样的特定特征、结构或特性可能不一定被包括在每一个实施例中。另外,对前述内容的提及不一定包括对相同实施例的提及。最后,无论是否被明确地描述,本领域普通技术人员都将会容易地领会到给定实施例的特定特征、结构或特性中的每一个可以结合或组合本文中所讨论的任何其它实施例中的那些被利用。为了本公开内容的目的,短语“A和/或B”意指(A)、(B)或(A和B)。为了本公开内容的目的,短语“A、B和/或C”意指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)、或(A、B和C)。如关于本公开内容的实施例所使用的术语“包括”、“包括有”、“具有”等等是同义的。如图1中所示,信息提取系统100包括被配置用于与蜂窝网络108和因特网112通信的无线通信设备104,被配置用以服务并且存储第一网站120的第一数据服务器116,被配置用以服务并且存储第二网站128的第二数据服务器124,被配置用于与因特网112通信的远程计算机132,以及电连接到远程计算机132并且被配置用以服务并且存储电子知识库140的第三数据服务器136。IE系统100被配置成通过如下操作来将有信息量内容(即有用、引起兴趣和/或所期望的信息)添加到知识库140:在没有通过利用两种类型的冗余处理的非监督式IE的过程的监督的情况下从至少网站120、128提取信息。特别地,由IE系统100所使用的过程通过如下操作来准确地区分有信息量内容与非有信息量内容(即无用、无兴趣和/或非期望的本文档来自技高网
...

【技术保护点】
1.一种将有信息量内容添加到电子知识库的方法,包括:根据多个网站来生成多个数据库表,每个数据库表基于对应的网站;单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容;将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所述有信息量内容添加到电子知识库。

【技术特征摘要】
【国外来华专利技术】2016.08.24 US 15/2452651.一种将有信息量内容添加到电子知识库的方法,包括:根据多个网站来生成多个数据库表,每个数据库表基于对应的网站;单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容;将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容,所述第一预定数目大于一;以及将所述有信息量内容添加到电子知识库。2.根据权利要求1所述的方法,其中单独地处理每个数据库表包括:将潜在有信息量内容标识为具有小于数据库表中对应一个数据库表中的预定出现数目的内容。3.根据权利要求1所述的方法,其中:所述多个数据库表中的第一数据库表根据具有多个网页的所述多个网站中的第一网站而被生成;每个网页包括多个内容项;并且单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容包括处理第一数据库表来将所述多个内容项中出现在第一网站的仅一个网页上的内容项标识为潜在有信息量内容。4.根据权利要求1所述的方法,其中标识为有信息量内容包括:将评分指派给来自每个数据库表的潜在有信息量内容;比较来自第一数据库表的潜在有信息量内容的第一评分与来自第二数据库表的潜在有信息量内容的第二评分;以及如果第一评分与第二评分的比较指示了来自第一数据库表的潜在有信息量内容被包括在第一数据库表和第二数据库表中,则确定来自第一数据库表的潜在有信息量内容是有信息量内容。5.根据权利要求4所述的方法,其中:第一数据库表包括与第一数据库表的潜在有信息量内容相关联的第一多个数据项;第二数据库表包括与第二数据库表的潜在有信息量内容相关联的第二多个数据项;将评分指派给来自每个数据库表的潜在有信息量内容包括将数值指派给所述第一多个数据项中的数据项以形成第一评分向量,以及将数值指派给所述第二多个数据项中的数据项以形成第二评分向量;比较第一评分与第二评分包括确定在第一评分向量与第二评分向量之间的余弦相似性;以及标识为有信息量内容包括如果所述余弦相似性大于或等于预定阈值,则确定来自第一数据库表的潜在有信息量内容被包括在第一数据库表和第二数据库表中。6.根据权利要求5所述的方法,其中将评分指派给来自每个数据库表的潜在有信息量内容此外包括:使被指派到所述第一多个数据项中在所述第一多个数据项中最频繁出现的数据项的数值加倍;以及使被指派到所述第二多个数据项中在所述第二多个数据项中最频繁出现的数据项的数值加倍。7.根据权利要求5所述的方法,此外包括:通过分析与第一数据库表相关联的第一网站的HTML标签序列来确定所述第一多个数据项;以及通过分析与第二数据库表相关联的第二网站的HTML标签序列来确定所述第二多个数据项。8.根据权利要求7所述的方法,其中第一网站和第二网站具有不同的网际协议地址。9.一种信息提取系统,包括:远程计算机,其可操作地被连接到因特网并且包括处理器,所述处理器被配置成:根据经由因特网可访问的多个网站来生成多个数据库表,每个数据库表基于对应...

【专利技术属性】
技术研发人员:DS金C陈
申请(专利权)人:罗伯特·博世有限公司
类型:发明
国别省市:德国,DE

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1