基于图数据确定文本的语义相似度的方法及装置制造方法及图纸

技术编号：24856630 阅读：19 留言：0更新日期：2020-07-10 19:09

本说明书实施例提供了利用图数据确定文本的语义相似度的构思，在该技术构思下，图数据中的节点对应语料库中的句子和词，相关联的句子和词、词和词之间通过连接边连接，各个节点对应有能够表达相应词或句子的语义信息的节点表达向量。在对图数据的数据预处理过程中，能够利用大量无监督数据构建图数据，来描述词和句子、词和词之间的关系，并通过少量有监督数据优化处理模型的模型参数，使得相似文本的向量表示可以相互影响，从而通过图数据对文本和词汇进行有效的向量表达。在确定文本的语义相似度时，通过图数据获取待确定语义相似度文本的向量，利用向量相似度确定文本语义相似度。如此，可以提高文本语义相似度的通用性、准确度、有效性。

全部详细技术资料下载

【技术实现步骤摘要】
基于图数据确定文本的语义相似度的方法及装置
本说明书一个或多个实施例涉及计算机
，尤其涉及基于图数据进行文本向量表达的方法和装置，以及基于图数据通过计算机确定文本相似度的方法和装置。
技术介绍
随着人工智能技术的发展，越来越多的业务可以通过机器学习模型来完成。机器学习模型对自然语言的处理，也是重要的研究方向。例如，在智能客服领域，通常需要对文本的语义进行识别，确定用户提问所对应的标准问题，从而为用户提供合适的答案。这种情况下，很多方案都涉及文本相似度问题，也就是，用户提问的自然语言表达文本与标准问题文本之间的相似程度。常规技术中，诸如jaccard系数、余弦相似度之类的简单文本相似度方法，只考虑字词本身，不包含整体语义信息，所以虽然在简单样本上效果较好，但很难处理语义复杂的情况。基于神经网络模型的算法，如CNN、RNN、Transformer（编码）等，能较好地捕捉语义信息，在大部分数据集上可以取得更好的结果，然而这些神经网络模型通常依赖大量有监督数据才能获得比较好的效果。在一些数据量大，语义表达复杂（如云客服）的场景下，虽然累积了大量的语料，然后针对单个业务很难收集高质量的标注数据，训练文本相似度模型效果有限。因此，需要提供一种通用度高的文本相似度确定方法，不依赖数量庞大的监督数据，仍然可以为各种业务场景确定准确的相似度文本。
技术实现思路
本说明书一个或多个实施例描述了一种基于图数据确定文本相似度的方法及装置，用以解决
技术介绍
提到的一个或多个问题。根据第一方面，提...

【技术保护点】
1.一种基于图数据进行文本向量表达的方法，所述图数据包括，分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点，以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边，各个节点分别对应有节点表达向量；所述方法包括：/n利用预设的处理模型处理所述图数据，所述处理模型用于遍历所述图数据中的各个节点，以针对所述图数据中的各个节点，执行邻居节点向量融合操作，从而更新各个节点的节点表达向量；/n获取第一样本中，由第一样本文本和第二样本文本构成的样本文本对，所述样本文本对还对应有样本相似性标签；/n根据更新后的图数据，分别确定与所述第一样本文本对应的第一样本向量，以及与所述第二样本文本对应的第二样本向量；/n利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度；/n基于所述相似度与所述样本相似性标签进行对比，从而根据对比结果调整所述处理模型的模型参数；/n利用调整后的处理模型处理图数据，遍历图数据中的各个节点，执行所述邻居节点向量融合操作，以进一步更新各个节点的节点表达向量，从而使得所述图数据用于与确定文本的语义相似度相关的业务。/n...

【技术特征摘要】
1.一种基于图数据进行文本向量表达的方法，所述图数据包括，分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点，以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边，各个节点分别对应有节点表达向量；所述方法包括：
利用预设的处理模型处理所述图数据，所述处理模型用于遍历所述图数据中的各个节点，以针对所述图数据中的各个节点，执行邻居节点向量融合操作，从而更新各个节点的节点表达向量；
获取第一样本中，由第一样本文本和第二样本文本构成的样本文本对，所述样本文本对还对应有样本相似性标签；
根据更新后的图数据，分别确定与所述第一样本文本对应的第一样本向量，以及与所述第二样本文本对应的第二样本向量；
利用预定的相似度模型确定所述第一样本向量与所述第二样本向量的相似度；
基于所述相似度与所述样本相似性标签进行对比，从而根据对比结果调整所述处理模型的模型参数；
利用调整后的处理模型处理图数据，遍历图数据中的各个节点，执行所述邻居节点向量融合操作，以进一步更新各个节点的节点表达向量，从而使得所述图数据用于与确定文本的语义相似度相关的业务。

2.根据权利要求1所述的方法，其中，所述图数据包括第一节点，所述处理模型针对所述第一节点，执行的所述邻居节点向量融合操作包括：
获取所述第一节点的至少一个邻居节点当前分别对应的各个邻居节点表达向量；
对各个邻居节点表达向量进行融合，得到第一融合结果；
将所述第一融合结果与所述第一节点的当前节点表达向量进行融合，得到第二融合结果；
根据所述第二融合结果，更新所述第一节点的节点表达向量。

3.根据权利要求2所述的方法，其中，各个连接边对应有边权重，所述对各个邻居节点表达向量进行融合，得到第一融合结果包括：
将各个邻居节点表达向量按照各自对应的边权重进行加权平均得到的平均向量，作为所述第一融合结果。

4.根据权利要求2所述的方法，其中，所述将所述第一融合结果与所述第一节点的当前节点表达向量进行融合，得到第二融合结果包括：
将所述第一融合结果和所述第一节点的当前节点表达向量拼接成2m维列向量；
利用列数为2m的辅助权重矩阵，与所述2m维列向量的乘积，确定所述第二融合结果。

5.根据权利要求1所述的方法，其中，在所述第一样本文本与所述图数据中的第一句子节点对应的句子一致的情况下，所述根据更新后的图数据，分别确定与所述第一样本文本对应的第一样本向量，以及与所述第二样本文本对应的第二样本向量包括：
获取所述第一句子节点当前的节点表达向量，作为所述第一样本文本对应的第一样本向量。

6.根据权利要求1所述的方法，其中，在所述第一样本文本与所述图数据中的各个句子节点对应的句子都不一致的情况下，所述从更新后的图数据中，获取与第一样本对应的两个文本表达向量包括：
将所述第一样本文本进行分词，得到若干候选词；
从所述图数据中获取各个候选词分别对应的各个词节点的节点表达向量；
将各个候选词分别对应的各个词节点的节点表达向量进行融合，得到所述第一样本文本对应的第一样本向量。

7.根据权利要求1所述的方法，其中，所述预定的相似度模型为余弦相似度模型。

8.根据权利要求1所述的方法，其中，所述若干词节点包括具有关联关系的第一词节点和第二词节点，所述第一词节点和所述第二词节点之间的连接边对应有第一边权重，所述第一边权重与所述第一词节点与所述第二词节点在语料库中的共现频次正相关，与所述第一词节点在语料库中的出现频次及所述第二词节点在语料库中的出现频次负相关。

9.根据权利要求1所述的方法，其中，所述若干句子节点包括第二句子节点，所述若干词节点包括与所述第二句子节点具有关联关系的第三词节点，所述第二句子节点与所述第三词节点之间的连接边对应有第二边权重，所述第二边权重与所述第三词节点对应的词汇在所述第二句子节点中的出现频次正相关，与所述第三词节点对应的词汇在语料库的出现频次负相关。

10.一种基于图数据确定文本语义相似度的方法，所述图数据包括，分别对应于语料库中的各个词汇的若干词节点、分别对应于语料库中的各个句子的若干句子节点，以及具有关联关系的词节点和词节点之间、词节点和句子节点之间分别对应的连接边，所述连接边根据节点之间的关联性对应有边权重，各个节点分别对应有通过权利要求1所述的方法确定的各个节点表达向量；所述方法包括：
获取待确定语义相似度的第一文本、第二文本；
根据所述图数据，分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量；
利用预定的相似度模型确定所述第一向量与所述第二向量的向量相似度；
按照所述向量相似度确定所述第一文本与所述第二文本的语义相似性。

11.根据权利要求10所述的方法，其中，在所述第一文本与所述图数据中的第三句子节点对应的句子一致的情况下，所述根据所述图数据，分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量包括：
获取所述第三句子节点当前的节点表达向量，作为所述第一文本对应的第一向量。

12.根据权利要求10所述的方法，其中，在所述第一文本与所述图数据中的各个句子节点对应的句子都不一致的情况下，所述根据所述图数据，分别确定与所述第一文本对应的第一向量、与所述第二文本对应的第二向量包括：
将所述第一文本进行分词，得到针对所述第一文本的若干候选词；<...

【专利技术属性】
技术研发人员：杨明晖，崔恒斌，陈晓军，陈显玲，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人