一种基于改进的WMD文本相似度计算方法及装置制造方法及图纸

技术编号：40607008 阅读：2 留言：0更新日期：2024-03-12 22:13

本发明专利技术提供一种基于改进的WMD文本相似度计算方法，步骤包括：对目标词进行依存句法分析；根据所述依存句法分析结果构建所述目标词的子树和子树集合；利用节点加权向量，计算每个所述子树的向量表示，将所述子树中的节点信息融入向量中；计算得到整体结构上的语法词序依赖信息；本公开考虑到了现有文本相似度计算方法效率较低、无法考虑到上下文语法结构信息、对语境的依赖性较强，利用依存句法分析构建目标词的子树和子树合集，计算节点加权向量，提高了文本相似度计算精度，提高相似度计算效率。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及文本处理领域，尤其涉及一种基于改进的wmd文本相似度计算方法及装置。

技术介绍

1、自然语言处理领域一直以来都是人工智能研究的热点之一。随着互联网和信息爆炸的时代来临，文本数据的增长呈现出爆炸性的趋势，对文本理解和处理的需求也越来越迫切。在这个背景下，文本相似度计算成为自然语言处理领域的一个核心问题，它涉及信息检索、推荐系统、文本聚类等多个应用领域。

2、目前，基于词向量的文本相似度计算已经取得了一定的成果，其中word mover'sdistance(wmd)是一种常用的算法。然而，传统的wmd算法存在一些缺陷，主要体现在以下几个方面：1.未考虑上下文语法结构信息，传统wmd算法主要关注词向量之间的距离，而忽略了词在句子中的上下文语法结构信息。在一些语境复杂的句子中，忽略上下文可能导致相似度计算的误差；2.忽略词序信息的影响，传统wmd算法没有考虑词的顺序对相似度计算的影响。然而，同样的词汇在不同的顺序中可能表达出截然不同的语义；3.对语境依赖性较强，传统wmd算法在处理一些特定语境下的文本时，由于缺乏对语境的深层次理解，可能导致相似度计算的不准确。

3、在当前自然语言处理领域，许多应用场景都需要高效准确的文本相似度计算。信息检索、智能问答、情感分析等领域对文本相似度计算提出了更高的要求。然而，传统方法在处理上述问题时存在明显缺陷。

4、本专利技术通过引入依存句法分析，将上下文语法结构信息融入文本相似度计算中，从而更好地捕捉词在句子中的语法关系。通过节点加权向量的设计，考虑了节点距

技术实现思路

1、本申请的目的在于提供一种基于改进的wmd文本相似度计算方法及装置，解决上述的问题。

2、本申请的目的采用以下技术方案实现：

3、第一方面，本申请提供了一种基于改进的wmd文本相似度计算方法，包括以下步骤，对目标词进行依存句法分析；根据所述依存句法分析结果构建所述目标词的子树和子树集合；利用节点加权向量，计算每个所述子树的向量表示，将所述子树中的节点信息融入向量中；计算得到整体结构上的语法词序依赖信息。

4、该技术方案的有益效果在于：通过引入依存句法分析，该方法能够更全面地捕捉文本中词之间的语法结构关系，从而实现更准确的语义建模；传统wmd算法可能忽略上下文信息，而该方法通过子树集合的构建，充分考虑了上下文语法结构，提升了对文本语义的理解能力；依存句法分析结果的引入使得该方法对语境依赖性更加敏感；通过引入超参数m来控制子树集合的构建，可以根据具体应用场景和需求进行灵活地调节；通过综合考虑词义、词序和语法结构等多方面信息，该方法在文本相似度计算方面具有更高的准确性。

5、在对所述目标词进行依存句法分析前还包括：

6、对文本数据进行清理，去除停用词等无关信息，为每个词生成词向量表示并构建向量矩阵。

7、该技术方案的有益效果在于：通过在依存句法分析之前进行文本数据清理，去除停用词等无关信息，可以减少分析的文本数据量，提高计算效率，这对于大规模文本数据的处理尤为重要，可以有效降低计算成本和时间复杂度；在清理后的文本数据上生成词向量，可以避免无关信息对词向量表示的干扰，清理后的文本更加集中于关键信息，有助于生成更具代表性的词向量，提高了文本表示的质量；清理文本数据并生成词向量时，可以更加关注上下文信息，识别并保留对依存句法分析有帮助的信息，这有助于提高文本相似度计算对语境信息的理解和利用能力。

8、对目标词进行依存句法分析的具体步骤为，确定中心词，基于所述中心词确定依存项，基于所述中心词和所述依存项构建以所述中心词为基础的树状结构。

9、该技术方案的有益效果在于：通过确定中心词和依存项，可以清晰地识别出目标词与其他词之间的语法关系，这有助于理解句子的结构，使得依存树更加直观和易于解释；中心词的确定有助于更准确地确定依存项，从而构建准确的依存关系，这种准确性对于理解词与词之间的语法联系至关重要，尤其是在复杂的句子结构中；以确定的中心词为基础构建树状结构，使得分析结果更加集中于目标词的语法环境，这有助于聚焦于与目标词相关的语法信息，提高了对目标词上下文的关注度；构建以中心词为基础的树状结构有助于后续的处理和分析，例如，在计算子树向量或者进行其他特征提取时，树状结构的清晰性使得处理步骤更加顺利和可控。

10、所述中心词与所述依存项间存在依存关系，所述依存关系包括nsubj、obj、iobj、csubj、nmod、amod、compound、fixed、obl；

11、其中nsubj表示名词主语关系；obj表示宾语关系；iobj表示间接宾语关系；csubj表示从句主语关系；nmod表示名词修饰语关系；amod表示形容词修饰语关系；compound表示复合表达式关系；fixed表示固定表达式关系；obl表示间接名词关系。

12、该技术方案的有益效果在于：通过包括不同类型的依存关系，能够提供更全面、更多样化的语法信息，不同类型的依存关系涵盖了不同的语法结构，如主谓关系、修饰关系、从句关系等，这使得该技术方案能够适应包括复杂结构在内的多种语法形式，提高了适应性和通用性，由于涵盖了多种依存关系类型，该技术方案适用于不同的自然语言处理任务，如信息检索、问答系统、机器翻译等，满足了不同任务对不同依存关系分析的需求。

13、根据所述依存句法分析结果构建所述目标词的子树中包括m阶子树，所述m为超参数，不同的所述m对应形成不同层级的所述子树，将不同层级的所述子树归为同一集合即为所述子树集合。

14、该技术方案的有益效果在于：对于不同复杂性的文本，可以通过调整m的值来适应，当处理简单的句子时，可以选择较小的m值，而对于复杂结构的句子，可以选择较大的m值，以覆盖更多的语法层次。

15、根据所述依存句法分析结果构建所述目标词的子树和子树集合还包括，计算子树集合之间的距离来表示两条文本中两个目标词的上下文语法结构上的距离。

16、该技术方案的有益效果在于：通过计算子树集合之间的距离，系统可以更全面地比较两个目标词在语法结构上的相似性，这种方法不仅考虑了单一子树的特征，还考虑了不同子树之间的关系，使得相似度计算更加全面。

17、子树中节点加权的向量具体为：

18、

19、k表示非当前节点距离当前节点的距离，表示词i的词向量，k的取值基于与当前节点的距离，与当前节点相邻的距离为1，与当前节点间隔一个节点距离为2，以此类推。

20、该技术方案的有益效果在于：对于子树中的每个节点，使用一个权重向量来表示该节点，并且权重向量中的每个元素都通过一个指数衰减函数进行计算，这个权重向量的计算考虑了节点与目标本文档来自技高网...

【技术保护点】

1.一种基于改进的WMD文本相似度计算方法，其特征在于，包括以下步骤，对目标词进行依存句法分析；

2.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

3.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

4.根据权利要求3所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

5.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

6.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

7.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

8.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

9.根据权利要求8所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

10.根据权利要求1所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

11.根据权利要求10所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

12.根据权利要求10所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

13.根据权利要求10所述的一种基于改进的WMD文本相似度计算方法，其特征在于，

14.一种计算机可读存储介质，其特征在于，

...

【技术特征摘要】

1.一种基于改进的wmd文本相似度计算方法，其特征在于，包括以下步骤，对目标词进行依存句法分析；

2.根据权利要求1所述的一种基于改进的wmd文本相似度计算方法，其特征在于，

3.根据权利要求1所述的一种基于改进的wmd文本相似度计算方法，其特征在于，

4.根据权利要求3所述的一种基于改进的wmd文本相似度计算方法，其特征在于，

5.根据权利要求1所述的一种基于改进的wmd文本相似度计算方法，其特征在于，

6.根据权利要求1所述的一种基于改进的wmd文本相似度计算方法，其特征在于，

7.根据权利要求1所述的一种基于改进的wmd文本相似度计算方法，...

【专利技术属性】
技术研发人员：张鹏，袁磊，
申请(专利权)人：陕西优百信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人