用于非监督式信息提取的方法和设备技术

技术编号：21282413 阅读：61 留言：0更新日期：2019-06-06 12:27

一种将有信息量内容添加到电子知识库的方法包括根据多个网站来生成多个数据库表，每个数据库表基于对应的网站；以及单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容。所述方法此外包括将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容，所述第一预定数目大于一；以及将所述有信息量内容添加到电子知识库。

Method and equipment for unsupervised information extraction

A method of adding information content to an electronic knowledge base includes generating multiple database tables based on multiple websites, each database table is based on the corresponding website, and processing each database table separately to identify potential information content from each database table. The method also includes identifying potential content with information content in the first predetermined number of database tables included in the plurality of database tables as content with information content, the first predetermined number being greater than one, and adding all information content to the electronic knowledge base.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于非监督式信息提取的方法和设备
本公开内容涉及信息提取的领域，并且特别地涉及改善通过非监督式信息提取所生成的数据的有用性。
技术介绍
大量数据作为HTML网站被存储在因特网上。典型地，以人类读者容易理解的方式组织和呈现数据。例如，在查看包含对合适的停车场区域进行描述的信息的网站的网页中，人类读者典型地能够定位并且理解相关信息。人类读者针对上下文线索或标注而略读网页，所述上下文线索或标注指向或建议相关信息的位置。即使信息被包含在表格中或被混合在文本框内，人类读者也定位相关信息。在定位了相关信息之后，人类读者记录信息或对其做出心记使得相关信息可以在适当的时间、诸如当导航到所期望的停车场区域的时候被使用。如以上所阐明的，人类读者能够略读多段网页并且定位相关信息是几秒钟的事情；然而，对于计算机而言难以从网页中高效地标识相关信息。信息提取（“IE”）是指使用计算机来从网站提取相关信息的过程。所提取的信息然后被存储到通过其它计算机容易可访问且可搜索的经组织的相关信息的数据库。IE的已知方式是监督式或非监督式的。监督式的IE需要工程师或技术员回顾从网站所提取的信息并且手动地确...

【技术保护点】
1.一种将有信息量内容添加到电子知识库的方法，包括：根据多个网站来生成多个数据库表，每个数据库表基于对应的网站；单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容；将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容，所述第一预定数目大于一；以及将所述有信息量内容添加到电子知识库。

【技术特征摘要】
【国外来华专利技术】2016.08.24 US 15/2452651.一种将有信息量内容添加到电子知识库的方法，包括：根据多个网站来生成多个数据库表，每个数据库表基于对应的网站；单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容；将被包括在所述多个数据库表中的第一预定数目的数据库表中的潜在有信息量内容标识为有信息量内容，所述第一预定数目大于一；以及将所述有信息量内容添加到电子知识库。2.根据权利要求1所述的方法，其中单独地处理每个数据库表包括：将潜在有信息量内容标识为具有小于数据库表中对应一个数据库表中的预定出现数目的内容。3.根据权利要求1所述的方法，其中：所述多个数据库表中的第一数据库表根据具有多个网页的所述多个网站中的第一网站而被生成；每个网页包括多个内容项；并且单独地处理每个数据库表以从每个数据库表中标识潜在有信息量内容包括处理第一数据库表来将所述多个内容项中出现在第一网站的仅一个网页上的内容项标识为潜在有信息量内容。4.根据权利要求1所述的方法，其中标识为有信息量内容包括：将评分指派给来自每个数据库表的潜在有信息量内容；比较来自第一数据库表的潜在有信息量内容的第一评分与来自第二数据库表的潜在有信息量内容的第二评分；以及如果第一评分与第二评分的比较指示了来自第一数据库表的潜在有信息量内容被包括在第一数据库表和第二数据库表中，则确定来自第一数据库表的潜在有信息量内容是有信息量内容。5.根据权利要求4所述的方法，其中：第一数据库表包括与第一数据库表的潜在有信息量内容相关联的第一多个数据项；第二数据库表包括与第二数据库表的潜在有信息量内容相关联的第二多个数据项；将评分指派给来自每个数据库表的潜在有信息量内容包括将数值指派给所述第一多个数据项中的数据项以形成第一评分向量，以及将数值指派给所述第二多个数据项中的数据项以形成第二评分向量；比较第一评分与第二评分包括确定在第一评分向量与第二评分向量之间的余弦相似性；以及标识为有信息量内容包括如果所述余弦相似性大于或等于预定阈值，则确定来自第一数据库表的潜在有信息量内容被包括在第一数据库表和第二数据库表中。6.根据权利要求5所述的方法，其中将评分指派给来自每个数据库表的潜在有信息量内容此外包括：使被指派到所述第一多个数据项中在所述第一多个数据项中最频繁出现的数据项的数值加倍；以及使被指派到所述第二多个数据项中在所述第二多个数据项中最频繁出现的数据项的数值加倍。7.根据权利要求5所述的方法，此外包括：通过分析与第一数据库表相关联的第一网站的HTML标签序列来确定所述第一多个数据项；以及通过分析与第二数据库表相关联的第二网站的HTML标签序列来确定所述第二多个数据项。8.根据权利要求7所述的方法，其中第一网站和第二网站具有不同的网际协议地址。9.一种信息提取系统，包括：远程计算机，其可操作地被连接到因特网并且包括处理器，所述处理器被配置成：根据经由因特网可访问的多个网站来生成多个数据库表，每个数据库表基于对应...

【专利技术属性】
技术研发人员：DS金，C陈，
申请(专利权)人：罗伯特·博世有限公司，
类型：发明
国别省市：德国,DE

全部详细技术资料下载我是这个专利的主人