用于确定文本相关度的方法、装置、设备和介质制造方法及图纸

技术编号：21343475 阅读：20 留言：0更新日期：2019-06-13 22:27

根据本公开的实施例，提供了用于确定文本相关度的方法、装置、设备和介质。确定文本相关度的方法包括从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素。知识库包括由知识元素构成的知识表示。该方法还包括确定第一组知识元素与第二组知识元素之间的知识元素相关度，并且至少基于知识元素相关度，确定第二文本与第一文本的文本相关度。以此方式，可以通过知识库中知识元素级别的相关度来提高文本相关度的确定。

Methods, devices, devices and media for determining text correlation

According to embodiments of the present disclosure, methods, devices, devices and media for determining text correlation are provided. The method of determining text relevance includes identifying the first set of knowledge elements associated with the first text from a predefined knowledge base and the second set of knowledge elements associated with the second text. Knowledge base includes knowledge representation composed of knowledge elements. The method also includes determining the correlation degree of knowledge elements between the first group of knowledge elements and the second group of knowledge elements, and determining the text correlation degree between the second text and the first text at least based on the correlation degree of knowledge elements. In this way, we can improve the determination of text correlation through the correlation of knowledge element level in knowledge base.

全部详细技术资料下载

【技术实现步骤摘要】
用于确定文本相关度的方法、装置、设备和介质
本公开的实施例主要涉及计算机领域，并且更具体地，涉及用于确定文本相关度的方法、装置、设备和计算机可读存储介质。
技术介绍
文本的相关度也称为文本的匹配程度。在很多应用中都需要确定不同文本之间的相关度。一个典型的场景是搜索应用。通常，在执行搜索时，要确定各个文档中的文本与搜索查询中的文本相关度，并且可以基于相关度的高低来确定在返回的查询结果中各个文档的排序情况，即实现相关度排序。文本相关度的确定基于对文本的理解，不仅由两个文本的语义相似度相关，而且还与文本之间的匹配程度相关。虽然已经进行了大量研究，但当前很多实现文本相关度确定的方法在准确度方面仍然有待提高。
技术实现思路
根据本公开的示例实施例，提供了一种用于确定文本相关度的方案。在本公开的第一方面中，提供了一种确定文本相关度的方法。该方法包括从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素，知识库包括由知识元素构成的知识表示；确定第一组知识元素与第二组知识元素之间的知识元素相关度；以及至少基于知元素相关度，确定第二文本与第一文本的文本相关度。在本公开的第二方面中，提供了一种用于确定文本相关度的装置。该装置包括知识元素关联模块，被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素，知识库包括由知识元素构成的知识表示；元素相关度确定模块，被配置为确定第一组知识元素与第二组知识元素之间的知识元素相关度；以及文本相关度确定模块，被配置为至少基于知识元素相关度，确定第二文本与第一文本的文本相关...

【技术保护点】
1.一种确定文本相关度的方法，包括：从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素，所述知识库包括由知识元素构成的知识表示；确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度；以及至少基于所述知识元素相关度，确定所述第二文本与所述第一文本的文本相关度。

【技术特征摘要】
1.一种确定文本相关度的方法，包括：从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素，所述知识库包括由知识元素构成的知识表示；确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度；以及至少基于所述知识元素相关度，确定所述第二文本与所述第一文本的文本相关度。2.根据权利要求1所述的方法，其中所述第一文本包括搜索查询，所述第二文本包括候选文档的至少一部分，并且所述相关度用于确定所述候选文档在针对所述搜索查询的查询结果中的排序。3.根据权利要求1所述的方法，其中所述第一组知识元素或所述第二组知识元素包括以下至少一项：所述知识库中的实体、所述实体之间的关系和所述实体的属性。4.根据权利要求1所述的方法，其中确定所述知识元素相关度包括：确定所述第一组知识元素和第二组知识元素中在所述知识库中具有相同标识的知识元素的数目，知识元素的标识在所述知识库中唯一标识所述知识元素；以及基于具有相同标识的所述知识元素的数目来确定所述知识元素相关度。5.根据权利要求1所述的方法，其中确定所述知识元素相关度包括：确定所述第一文本中用于关联到所述第一组知识元素的第一组文本项与所述第二文本中用于关联到所述第二组知识元素的第二组文本项之间的文本相似度；以及基于所述文本相似度来确定所述知识元素相关度。6.根据权利要求1所述的方法，其中确定所述知识元素相关度还包括：确定所述第一组知识元素对应的第一组合向量表示和所述第二组知识元素对应的第二组合向量表示；提取所述第一组合向量表示的第一特征和所述第二组合向量表示的第二特征；以及还基于所述第一特征和所述第二特征来确定所述知识元素相关度。7.根据权利要求1所述的方法，其中确定所述第一组合向量表示和所述第二组合向量表示包括：基于知识元素与向量表示之间的第一预定映射关系，确定所述第一组知识元素的第一组向量表示和所述第二组知识元素的第二组向量表示，所述第一组知识元素和所述第二组知识元素中具有所述知识库中的同一标识的知识元素被映射到同一向量表示；通过将所述第一组向量表示按所述第一组知识元素在所述第一文本中出现的顺序进行组合，来确定所述第一组合向量表示；以及通过将所述第二组向量表示按所述第二组知识元素在所述第二文本中出现的顺序进行组合，来确定所述第二组合向量表示。8.根据权利要求7所述的方法，其中所述第一预定映射关系基于所述知识库中的知识元素的主谓宾(SPO)信息来确定。9.根据权利要求1所述的方法，其中确定所述文本相关度还包括：基于文本项与向量表示之间的第二预定映射关系，确定与所述第一文本对应的第一文本向量表示和与所述第二文本对应的第二文本向量表示；提取所述第一文本向量表示的第三特征和所述第二文本向量表示的第四特征；以及还基于所述第三特征和所述第四特征来确定所述文本相关度。10.根据权利要求9所述的方法，其中所述第二预定映射关系基于文本项在所述知识库中相关联的知识元素的主谓宾(SPO)信息来确定。11.一种用于确定文本相关度的装置，包括：知识元素关联模块，被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素，所述知识库包括由知识元素构成的知识表示；元素相关度确定模块，被配置为确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度；以及文本相关度确定模块，被配置为至...

【专利技术属性】
技术研发人员：徐也，冯知凡，方舟，张扬，朱勇，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人