一种词语相似性检测方法及系统技术方案

技术编号:38466215 阅读:16 留言:0更新日期:2023-08-11 14:43
本发明专利技术公开了一种词语相似性检测方法及系统,属于自然语言处理技术领域,包括:基于待比较的词语A和词语B在对应语料文本中的搭配词的差异度来检测二者之间的相似性;且在这个过程中,将“搭配强度”和“共现位置”两个维度交互作用下的二维数据点作为搭配词,在更大程度上承载了中心词周边的语境信息,使得中心词的搭配词的表达能力更强大也更准确;与此同时,考虑到搭配的方向性和序列性,通过将搭配的方向性和序列性纳入评估,能够充分利用词语的上下文信息,对词语进行准确地理解和表达。基于此,本发明专利技术充分利用了搭配知识及其蕴含的上下文信息,在比较特定上下文中的词语使用情况时,检测的准确性较高。检测的准确性较高。检测的准确性较高。

【技术实现步骤摘要】
一种词语相似性检测方法及系统


[0001]本专利技术属于自然语言处理
,更具体地,涉及一种词语相似性检测方法及系统。

技术介绍

[0002]词语相似性检测对自然语言处理任务具有重要作用,例如句法自动分析、词义消歧、语义结构分析、自然语言生成、关键字智能补全、问答系统、作文自动批改等,此外也对人的教育、研究和生产实践具有影响,因此,研究一种词语相似性检测方法存在重要意义。
[0003]现有的词语相似性检测方法一般采用词向量、语义词典、结构模板替换等方法,但是上述方法在特定语料的、小样本的词语相似性检测上适用性差。首先,词向量方法需要基于大规模的预设训练数据,对数据量要求较高;语义词典和结构模板替换方法使用人工设定的词义规则,但是同一个词语在不同文本中,其含义有时会存在较大的差异,该方法并未结合词语的上下文信息,在比较特定上下文中的词语使用情况容易产生偏差,检测的准确性较低。其次,上述方法所产生的相似度结果均为单一的评价数值,而对于差异性的具体解释、对用户的实践指导效果较差。

技术实现思路

[0004]针对现有技术的以上缺陷或改进需求,本专利技术提供了一种词语相似性检测方法及系统,用以解决现有技术在小样本语料上相似性检测的准确度较低的技术问题。
[0005]为了实现上述目的,第一方面,本专利技术提供了一种词语相似性检测方法,包括以下步骤:
[0006]S11、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的有序词对集,得到第一有序词对集和第二有序词对集,以及各有序词对的搭配强度和分布距离;
[0007]S12、将第一有序词对集和第二有序词对集进行比较,将具有相同搭配词及搭配方向的第一有序词对和第二有序词对进行组合,得到多个有序词对组;
[0008]S13、以有序词对的分布距离和搭配强度为指标,计算每一个有序词对组中的两个有序词对之间的差异度,进而得到词语A和词语B之间的相似度;
[0009]其中,获取中心词在其语料文本中的有序词对集的方法包括:
[0010]采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;
[0011]筛选出所有包含中心词的有序词对,并将相同的有序词对化为一类,得到不同类型的有序词对所构成的有序词对集,获取各有序词对的搭配强度和分布距离;其中,分布距离为同一类型下的所有有序词对的距离的平均值、中位数、众数或截尾平均数。
[0012]进一步优选地,有序词对的搭配强度基于有序词对的出现频数,采用互信息算法或似然比算法计算得到。
[0013]进一步优选地,词语A和词语B之间的相似度为所得的各差异度的平均值;或者,词语A和词语B之间的相似度为差异度的分布数据。
[0014]进一步优选地,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。
[0015]进一步优选地,上述距离为欧式距离或曼哈顿距离。
[0016]第二方面,本专利技术提供了一种词语相似性检测方法,包括以下步骤:
[0017]S21、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的搭配词对集,得到第一搭配词对集和第二搭配词对集,以及各搭配词对的搭配强度和分布距离;
[0018]S22、将第一搭配词对集和第二搭配词对集进行比较,将具有相同搭配词的第一搭配词对和第二搭配词对进行组合,得到多个搭配词对组;
[0019]S23、以搭配词对的分布距离和搭配强度为指标,计算每一个搭配词对组中的两个搭配词对之间的差异度,进而得到词语A和词语B之间的相似度;
[0020]其中,获取中心词在其语料文本中的搭配词对集的方法包括:
[0021]采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;
[0022]筛选出所有包含中心词的有序词对,并将两个组成词语均相同的有序词对作为一类搭配词对,得到不同类型的搭配词对所构成的搭配词对集,获取各搭配词对的搭配强度和分布距离;其中,分布距离为同一类型下的所有有序词对的矢量距离的平均值、中位数、众数或截尾平均数;
[0023]有序词对的矢量距离的绝对值与其距离相同,其性质符号取决于其搭配方向。
[0024]进一步优选地,搭配词对的搭配强度基于搭配词对的出现频数,采用互信息算法或似然比算法计算得到。
[0025]进一步优选地,词语A和词语B之间的相似度为所得的各差异度的平均值;或者,词语A和词语B之间的相似度为差异度的分布数据。
[0026]进一步优选地,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。
[0027]进一步优选地,上述距离为欧式距离或曼哈顿距离。
[0028]第三方面,本专利技术提供了一种词语相似性检测系统,包括:存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时执行本专利技术第一方面所提供的词语相似性检测方法和/或第二方面所提供的词语相似性检测方法。
[0029]第四方面,本专利技术还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行本专利技术第一方面所提供的词语相似性检测方法和/或第二方面所提供的词语相似性检测方法。
[0030]总体而言,通过本专利技术所构思的以上技术方案,能够取得以下有益效果:
[0031]1、本专利技术第一方面所提供的词语相似性检测方法,基于待比较的词语A和词语B在
对应语料文本中的搭配词的差异度来检测二者之间的相似性。且在这个过程中,将“搭配强度”和“共现位置”两个维度交互作用下的二维数据点作为搭配词,在更大程度上承载了中心词周边的语境信息,使得中心词的搭配词的表达能力更强大也更准确;与此同时,考虑到搭配的方向性和序列性,将两个具有相同搭配词及搭配方向的有序词对分别进行比对,能够更加准确地区分开搭配词在中心词两侧出现时所具有的不同语法意义,以利用词语的上下文信息对词语进行准确地理解和表达,使得对比结果更加精确有效,且在文本数据量充足的情况下表现更佳。综上,本专利技术充分利用了待检测词语的搭配知识及其蕴含的上下文信息,在比较特定上下文中的词语使用情况时,检测的准确性较高。
[0032]2、本专利技术第二方面所提供的词语相似性检测方法,基于待比较的词语A和词语B在对应语料文本中的搭配词的差异度来检测二者之间的相似性。且在这个过程中,将“搭配强度”和“共现位置”两个维度交互作用下的二维数据点作为搭配词,在更大程度上承载了中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词语相似性检测方法,其特征在于,包括以下步骤:S11、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的有序词对集,得到第一有序词对集和第二有序词对集,以及各有序词对的搭配强度和分布距离;S12、将所述第一有序词对集和所述第二有序词对集进行比较,将具有相同搭配词及搭配方向的第一有序词对和第二有序词对进行组合,得到多个有序词对组;S13、以有序词对的分布距离和搭配强度为指标,计算每一个有序词对组中的两个有序词对之间的差异度,进而得到所述词语A和所述词语B之间的相似度;其中,获取中心词在其语料文本中的有序词对集的方法包括:采用滑动窗口在中心词的语料文本中进行滑动,并按照文本方向,得到每一个窗口内的任意两个词语所组成的有序词对,以及有序词对中两个词语的距离;筛选出所有包含中心词的有序词对,并将相同的有序词对化为一类,得到不同类型的有序词对所构成的有序词对集,获取各有序词对的搭配强度和分布距离;所述分布距离为同一类型下的所有有序词对的距离的平均值、中位数、众数或截尾平均数。2.根据权利要求1所述的词语相似性检测方法,其特征在于,所述词语A和所述词语B之间的相似度为所得的各差异度的平均值;或者,所述词语A和所述词语B之间的相似度为差异度的分布数据。3.根据权利要求1或2所述的词语相似性检测方法,其特征在于,建立以分布距离和搭配强度为坐标轴的坐标系,搭配词对以点的形式分布在坐标系中,通过度量搭配词对组中的两个搭配词对之间的距离,得到每一个搭配词对组中的两个搭配词对之间的差异度。4.根据权利要求3所述的词语相似性检测方法,其特征在于,所述距离为欧式距离或曼哈顿距离。5.一种词语相似性检测方法,其特征在于,包括以下步骤:S21、分别以第一语料文本中的词语A和第二语料文本中的词语B为中心词,获取中心词在对应语料文本中的搭配词对集,得到第一搭配词对集和第二搭配词对集,以及各搭配词对的搭配强度和分布距离;S22、将所述第一搭配词对集和所述第二搭配词对集进行比较,将具有相同搭配词的第一搭配词对和第二搭配词对进行组合,...

【专利技术属性】
技术研发人员:刘道焕唐旭日
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1