用于同类实体分组的系统和方法技术方案

技术编号：17162205 阅读：75 留言：0更新日期：2018-02-01 20:27

公开了一种用于同类实体分组的系统和方法，在实施例中实体可以被分组成实体组用于知识库构造。在实施例中，实体对的相似度或非相似度实体关系被预测为二元关系。在实施例中，预测可以基于实体之间的相似度得分以及实体特征，实体特征使用实体特征或表示模型构造。在实施例中，预测可以是迭代过程，涉及最少人为检验和现存知识更新。在实施例中，一个或多个实体组可以使用图搜索从预测的实体对形成。在实施例中，组质心实体可以基于一个或多个因素被选择以代表每个组，例如，因素可以为它的通用性或普及性。

Systems and methods for grouping similar entities

A system and method for grouping similar entities is disclosed. In an example, entities can be grouped into an entity group for the construction of a knowledge base. In an example, the similarity or non - similarity entity relationship of the entity pair is predicted to be a two element relationship. In an example, the prediction can be based on the similarity scores and the entity features between the entities, and the entity features are constructed using the entity feature or the representation model. In an example, the prediction can be an iterative process, involving the least human test and the updating of the existing knowledge. In an example, one or more entity groups can use graph search to form from the predicted entity. In the case of implementation, group centroid entities can be selected based on one or more factors to represent each group, for example, factors can be universality or popularity for them.

全部详细技术资料下载

【技术实现步骤摘要】
用于同类实体分组的系统和方法
本公开总体上涉及识别相似实体，尤其涉及用于同类实体分组的系统和方法。
技术介绍
知识库用在多种应用中，例如自动医学诊断方面的推理搜索引擎、问答等。知识库定义多个实体和实体间的关系。实体分组是用于构造知识库的重要步骤。如观察到的，对于每个常见实体来说，用户有多种不同说法，这些不同说法是彼此的别名或同义词。特别地，在基于字符的语言中，例如汉语和韩语，一种医学症状(实体)有多于50种不同说法的情况并不少见。症状的这些多种说法应被归为一类并且表示成医学知识库中的唯一实体。已经为实体分组做出了种种努力。实体标签(例如标识)已经用于实体分组。可以用相应的变体扩展实体以形成用于实体分组的注释实体。实体还可以采用分级的方式归为一类。仍将利用动态更新知识在自然环境下对实体分组方法进行探索。因此，需要对实体进行分组的系统和方法，其用于诸如知识库构造的过程并且具有改进的分组性能。
技术实现思路
本公开在第一方面提供一种基于实体的语义对同类实体集合中的同类实体进行分组的计算机实施的方法，所述方法包含：确定实体字典中的每两个实体之间的相似度得分；使用先验知识从实体...
用于同类实体分组的系统和方法

【技术保护点】
一种基于实体的语义对同类实体集合中的同类实体进行分组的计算机实施的方法，所述方法包含：确定实体字典中的每两个实体之间的相似度得分；使用先验知识从实体字典识别多个相似实体对，所述实体字典包含待被确定它们是否具有相似含义的术语集合；使用大规模文本数据来构造实体特征，所述实体特征被所述相似实体对约束；针对每个相似实体对，使用构造的实体特征和确定的相似度得分预测所述实体之间的实体关系，所述预测是正相关或非正相关的二元预测，所述正相关被定义成所述实体之间的有关的关系；响应于一个或多个准则中的一个准则不被满足，取样一些预测的实体关系用于验证，使用验证结果来更新所述先验知识并且重新识别相似实体对，并且至少基...

【技术特征摘要】
2016.07.20 US 15/215,4921.一种基于实体的语义对同类实体集合中的同类实体进行分组的计算机实施的方法，所述方法包含：确定实体字典中的每两个实体之间的相似度得分；使用先验知识从实体字典识别多个相似实体对，所述实体字典包含待被确定它们是否具有相似含义的术语集合；使用大规模文本数据来构造实体特征，所述实体特征被所述相似实体对约束；针对每个相似实体对，使用构造的实体特征和确定的相似度得分预测所述实体之间的实体关系，所述预测是正相关或非正相关的二元预测，所述正相关被定义成所述实体之间的有关的关系；响应于一个或多个准则中的一个准则不被满足，取样一些预测的实体关系用于验证，使用验证结果来更新所述先验知识并且重新识别相似实体对，并且至少基于重新识别的相似实体对，重新预测实体关系；响应于一个或多个准则被满足，输出具有正相关预测的实体对；以及将输出的实体对分组成一个或多个实体组，每个实体组包含用于所述组中的全部实体的具有正实体关系的全部实体对。2.根据权利要求1所述的方法，其中所述一个或多个准则包含迭代次数要求和迭代预测变化要求。3.根据权利要求2所述的方法，其中所述迭代次数要求要求多于一次迭代，所述迭代预测变化要求要求当前迭代下与之前迭代下的实体关系预测之间的差异小于阈值。4.根据权利要求1所述的方法，其中所述实体关系取样是随机取样过程。5.根据权利要求1所述的方法，其中对取样的预测实体关系的验证通过人为检验完成。6.根据权利要求1所述的方法，其中对同类实体对进行分组还包含针对每个同类实体组选择组质心。7.根据权利要求6所述的方法，其中所述组质心被选择为多个实体的数据集合中的最受欢迎实体。8.根据权利要求6所述的方法，其中使用图搜索分组所述一个或多个实体组。9.一种用于识别相似实体的计算机实施的方法，所述方法包含：[a]针对多个实体中的每个实体，基于先验知识和大规模文本数据，使用实体特征构造器构造实体特征；[b]使用实体关系预测器预测实体关系，以至少部分基于构造的特征确定多个实体对中的每个实体对中的两个实体是否共享相似含义；[c]在第一次迭代中，随机取样一些实体对用于实体关系验证，并且验证每个随机取样的实体对的实体关系是否正确；[d]使用经验证的实体关系更新所述先验知识；[e]使用更新的先验知识重新构造实体特征；[f]使用重新构造的实体特征重新预测实体关系；[g]重复步骤[d...

【专利技术属性】
技术研发人员：谭树龙，费洪亮，甄毅，曹昱，刘博聪，刘朝春，王俊晴，周达文，范伟，
申请(专利权)人：百度美国有限责任公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人