用于确定文本相关度的方法、装置、设备和介质制造方法及图纸

技术编号:21343475 阅读:20 留言:0更新日期:2019-06-13 22:27
根据本公开的实施例,提供了用于确定文本相关度的方法、装置、设备和介质。确定文本相关度的方法包括从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素。知识库包括由知识元素构成的知识表示。该方法还包括确定第一组知识元素与第二组知识元素之间的知识元素相关度,并且至少基于知识元素相关度,确定第二文本与第一文本的文本相关度。以此方式,可以通过知识库中知识元素级别的相关度来提高文本相关度的确定。

Methods, devices, devices and media for determining text correlation

According to embodiments of the present disclosure, methods, devices, devices and media for determining text correlation are provided. The method of determining text relevance includes identifying the first set of knowledge elements associated with the first text from a predefined knowledge base and the second set of knowledge elements associated with the second text. Knowledge base includes knowledge representation composed of knowledge elements. The method also includes determining the correlation degree of knowledge elements between the first group of knowledge elements and the second group of knowledge elements, and determining the text correlation degree between the second text and the first text at least based on the correlation degree of knowledge elements. In this way, we can improve the determination of text correlation through the correlation of knowledge element level in knowledge base.

【技术实现步骤摘要】
用于确定文本相关度的方法、装置、设备和介质
本公开的实施例主要涉及计算机领域,并且更具体地,涉及用于确定文本相关度的方法、装置、设备和计算机可读存储介质。
技术介绍
文本的相关度也称为文本的匹配程度。在很多应用中都需要确定不同文本之间的相关度。一个典型的场景是搜索应用。通常,在执行搜索时,要确定各个文档中的文本与搜索查询中的文本相关度,并且可以基于相关度的高低来确定在返回的查询结果中各个文档的排序情况,即实现相关度排序。文本相关度的确定基于对文本的理解,不仅由两个文本的语义相似度相关,而且还与文本之间的匹配程度相关。虽然已经进行了大量研究,但当前很多实现文本相关度确定的方法在准确度方面仍然有待提高。
技术实现思路
根据本公开的示例实施例,提供了一种用于确定文本相关度的方案。在本公开的第一方面中,提供了一种确定文本相关度的方法。该方法包括从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,知识库包括由知识元素构成的知识表示;确定第一组知识元素与第二组知识元素之间的知识元素相关度;以及至少基于知元素相关度,确定第二文本与第一文本的文本相关度。在本公开的第二方面中,提供了一种用于确定文本相关度的装置。该装置包括知识元素关联模块,被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,知识库包括由知识元素构成的知识表示;元素相关度确定模块,被配置为确定第一组知识元素与第二组知识元素之间的知识元素相关度;以及文本相关度确定模块,被配置为至少基于知识元素相关度,确定第二文本与第一文本的文本相关度。在本公开的第三方面中,提供了一种电子设备,包括一个或多个处理器;以及存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现根据本公开的第一方面的方法。在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。应当理解,
技术实现思路
部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。附图说明结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:图1示出了在常规方案中确定文本相似度的示例环境的示意图;图2示出了根据本公开的多个实施例的确定文本相似度的示例环境的示意图;图3示出了根据本公开的一些实施例的基于学习网络的文本相关度确定的系统的示意框图;图4示出了根据本公开的一些实施例的图3的系统中的表示确定模块的示例的框图;图5示出了根据本公开的一些实施例的图3的系统中的特征提取模块的示例的框图;图6示出了根据本公开的一些实施例的确定文本相关度的方法的流程图;图7示出了根据本公开的实施例的用于确定文本相关度的装置的示意框图;以及图8示出了能够实施本公开的多个实施例的计算设备的框图。具体实施方式下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。如本文中所使用的,术语“文档”指的是任何格式的包含文本的计算机可读文件,也称为电子文档。文档的示例包括超文本标记语言(HTML)文件(也称为网页)、word文档、演示文档、便携式文档格式(PDF)文档、电子表格文档、纯文本文档,等等。如以上提及的,在许多应用中需要确定文本之间的相关度。图1示出了在常规方案中确定文本相似度的示例环境100的示意图。在环境100中,计算设备110被配置为确定两个文本之间的相关度,文档库120被配置为存储多个文档,每个文档具有相应的文本。文本102“华仔的老婆是谁?”作为用户输入的搜索查询102被提供给计算设备110。计算设备110然后从文档库120中检索与文本102相关(或匹配)的文本。例如,计算设备110从文档库120中获得文档130,并提取文档130的一部分,例如语句“朱丽倩的老公是刘德华”作为文本132。然后,计算设备110确定文本132与102的相关度,作为输出104。在搜索查询的应用中,所确定的相关度可以影响文档130是否能够作为针对搜索查询的搜索结果被呈现给用户,和/或文档130在搜索结果中的排序。在很多相关度确定技术中,主要考虑文本之间字符或词级别的共现情况,即在两个文本中相同字符或词出现的情况。然而,这种显式字符或词级别的信息可能难以捕捉文本的深层含义,从而导致对相关度确定的准确性难以令人满意。在考虑文档排序的应用中,虽然提出了利用用户的跳转关系与网页的质量来对网页类文档进行排序(典型的方案是被称为“PageRank”模型),但这种方案没有准确衡量网页与搜索查询之间的相关度。随着深度学习算法的不断发展,也提出了通过将文本相关度计算的问题建模成分类或排序问题,通过人工构造不同方面的特征或者利用算法来学习深度特征,然后基于特征来确定相关度或匹配程度。然而,人工构造特征会耗费大量人力,且难以实现对查询文本的深层理解,而在词语级别上的特征学习也面临着解决精确文本理解和匹配问题。根据本公开的实施例,提出了一种改进的文本相关度确定方案。在该方案中,引入了知识库用于提高相关度确定的准确度。具体地,通过实体关联手段将两个文本关联到知识库中的相应实体,然后基于两个文本对应的实体之间的实体相关度来确定文本之间的文本相关度。以此方式,可以通过知识库中知识元素级别的相关度来提高文本相关度的确定。以下将参照附图来具体描述本公开的实施例。图2示出了根据本公开的实施例的确定文本相似度的示例环境200的示意图。与图1所示的环境100相比,环境200中的计算设备210在确定文本102“华仔的老婆是谁?”与文本132“朱丽倩的老公是刘德华”的文本相关度时,还参考预定义的知识库240,以确定文本102和132之间实体级别的相关度。应当理解,虽然在图2的示例中给出了文本102和132的具体内容,但这仅是为了解释说明的目的。在其他实施例中,计算设备210可以确定任何两个文本之间的文本相关度。为便于理解,首先简单介绍知识库240。在文本中所使用的“知识库”(KB)也被称为“知识图谱”或“知识图”,这些术语在本文中可互换地使用。知识库是大量知识的集合。知识库可以包括多个知识元素,这些知识元素中的两个或多个知识元素构成知识表示。知识的示例例如为“刘德华的老婆是朱丽倩”、“刘德华的职业是歌手”、“刘德华的生日是1961年9月27日”等事实或现象。在知识库中,知识元素包括实体,实体之间的关系,以及实体之间的属本文档来自技高网
...

【技术保护点】
1.一种确定文本相关度的方法,包括:从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,所述知识库包括由知识元素构成的知识表示;确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度;以及至少基于所述知识元素相关度,确定所述第二文本与所述第一文本的文本相关度。

【技术特征摘要】
1.一种确定文本相关度的方法,包括:从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,所述知识库包括由知识元素构成的知识表示;确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度;以及至少基于所述知识元素相关度,确定所述第二文本与所述第一文本的文本相关度。2.根据权利要求1所述的方法,其中所述第一文本包括搜索查询,所述第二文本包括候选文档的至少一部分,并且所述相关度用于确定所述候选文档在针对所述搜索查询的查询结果中的排序。3.根据权利要求1所述的方法,其中所述第一组知识元素或所述第二组知识元素包括以下至少一项:所述知识库中的实体、所述实体之间的关系和所述实体的属性。4.根据权利要求1所述的方法,其中确定所述知识元素相关度包括:确定所述第一组知识元素和第二组知识元素中在所述知识库中具有相同标识的知识元素的数目,知识元素的标识在所述知识库中唯一标识所述知识元素;以及基于具有相同标识的所述知识元素的数目来确定所述知识元素相关度。5.根据权利要求1所述的方法,其中确定所述知识元素相关度包括:确定所述第一文本中用于关联到所述第一组知识元素的第一组文本项与所述第二文本中用于关联到所述第二组知识元素的第二组文本项之间的文本相似度;以及基于所述文本相似度来确定所述知识元素相关度。6.根据权利要求1所述的方法,其中确定所述知识元素相关度还包括:确定所述第一组知识元素对应的第一组合向量表示和所述第二组知识元素对应的第二组合向量表示;提取所述第一组合向量表示的第一特征和所述第二组合向量表示的第二特征;以及还基于所述第一特征和所述第二特征来确定所述知识元素相关度。7.根据权利要求1所述的方法,其中确定所述第一组合向量表示和所述第二组合向量表示包括:基于知识元素与向量表示之间的第一预定映射关系,确定所述第一组知识元素的第一组向量表示和所述第二组知识元素的第二组向量表示,所述第一组知识元素和所述第二组知识元素中具有所述知识库中的同一标识的知识元素被映射到同一向量表示;通过将所述第一组向量表示按所述第一组知识元素在所述第一文本中出现的顺序进行组合,来确定所述第一组合向量表示;以及通过将所述第二组向量表示按所述第二组知识元素在所述第二文本中出现的顺序进行组合,来确定所述第二组合向量表示。8.根据权利要求7所述的方法,其中所述第一预定映射关系基于所述知识库中的知识元素的主谓宾(SPO)信息来确定。9.根据权利要求1所述的方法,其中确定所述文本相关度还包括:基于文本项与向量表示之间的第二预定映射关系,确定与所述第一文本对应的第一文本向量表示和与所述第二文本对应的第二文本向量表示;提取所述第一文本向量表示的第三特征和所述第二文本向量表示的第四特征;以及还基于所述第三特征和所述第四特征来确定所述文本相关度。10.根据权利要求9所述的方法,其中所述第二预定映射关系基于文本项在所述知识库中相关联的知识元素的主谓宾(SPO)信息来确定。11.一种用于确定文本相关度的装置,包括:知识元素关联模块,被配置为从预定义的知识库中标识与第一文本相关联的第一组知识元素和与第二文本相关联的第二组知识元素,所述知识库包括由知识元素构成的知识表示;元素相关度确定模块,被配置为确定所述第一组知识元素与所述第二组知识元素之间的知识元素相关度;以及文本相关度确定模块,被配置为至...

【专利技术属性】
技术研发人员:徐也冯知凡方舟张扬朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1