文本相似度确定方法、装置、存储介质和电子设备制造方法及图纸

技术编号:24290006 阅读:54 留言:0更新日期:2020-05-26 20:12
本公开涉及一种文本相似度确定方法、装置、存储介质和电子设备,该方法包括:根据每个待测文本中的每个词语的词向量以及每个待测文本的词语数量,确定每个待测文本的文本向量;根据每个词语的词向量与文本向量的相似度以及词语数量,确定每个待测文本的语义发散度,该语义发散度用于表征该待测文本的内容所涵盖的领域的广泛程度;根据预设的相似度评价模型确定两个待测文本之间的文本相似度;通过语义发散度和预设的内容因子对文本相似度进行修正,该内容因子用于表征两个待测文本的文本内容对该文本相似度的影响程度。能够根据结合文本内容所涵盖领域的广泛程度对两个文本的文本相似度进行修正,提高相似度分析的针对性和文本相似度的准确度。

Text similarity determination method, device, storage medium and electronic equipment

【技术实现步骤摘要】
文本相似度确定方法、装置、存储介质和电子设备
本公开涉及文本识别领域,具体地,涉及一种文本相似度确定方法、装置、存储介质和电子设备。
技术介绍
随着电子产品的智能化程度的不断提高,对文本进行自动识别和相似度比对的需求也越来越多。相关技术中,通常通过对两篇文本的用词的重合度进行比对,分析两篇文本的相似度。但是,用词复杂并且含义比较丰富的文章可能涵盖多个互相之间存在关联关系的领域。在这种情况下,用词的重合度并不能完全体现两篇文本的相似度,导致文本相似度分析的针对性不足,进而导致生成的文本相似度的精确度较低。
技术实现思路
为克服相关技术中存在的问题,本公开的目的是提供一种文本相似度确定方法、装置、存储介质和电子设备。为了实现上述目的,根据本公开实施例的第一方面,提供一种文本相似度确定方法,所述方法包括:根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量,确定所述每个待测文本的文本向量;根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度;根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度;通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。可选的,所述根据所述每个待测文本中每个词语的词向量以及所述词向量的数量,确定所述每个待测文本的文本向量,包括:对所述每个待测文本进行词语切割,以获取所述每个待测文本中包含的多个词语和所述词语数量;将每个所述词语转化为词向量;获取所述多个词语的词向量的向量加和;将所述向量加和除以所述词语数量的结果作为所述文本向量。可选的,所述根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度,包括:计算所述每个词语的词向量与所述文本向量的余弦相似度;获取所述多个词语的词向量对应的余弦相似度的相似度加和;将所述相似度加和除以所述词语数量的结果作为所述语义发散度。可选的,所述通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,包括:根据两个所述待测文本的语义发散度的差值和预设的阻尼指数,确定两个所述待测文本对应的发散度因子;将所述发散度因子和所述内容因子作为预设的相似度系数算法的输入,以获取所述相似度系数算法输出的相似度系数;将所述相似度系数与所述文本相似度的乘积作为所述目标文本相似度。可选的,若所述发散度因子大于预设阈值,所述相似度系数算法表示为:PenaltyTerm=(1+a)tanh(DivergenceFactor);若所述发散度因子小于或等于预设阈值,所述相似度系数算法表示为:其中,所述PenaltyTerm为所述相似度系数,所述DivergenceFactor为所述发散度因子,所述a为所述内容因子。可选的,所述根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度,包括:将两个所述待测文本作为所述相似度评价模型的输入,以获取所述相似度评价模型输出的第一文本相似度作为所述文本相似度;或者,通过预设的摘要提取模型,根据所述语义发散度确定每个所述待测文件的本文摘要;将所述文本摘要作为所述相似度评价模型的输入,以将所述相似度评价模型输出的第二文本相似度作为所述文本相似度。可选的,所述通过预设的摘要提取模型,根据所述语义发散度确定每个所述待测文件的本文摘要,包括:根据所述待测文本的语义发散度、段落数量和句子数量,确定目标数量;将所述句子数量作为所述摘要提取模型的参数,通过所述摘要提取模型确定所述待测文本的本文摘要,所述文本摘要的句子数量为所述目标数量。根据本公开实施例的第二方面,提供一种文本相似度确定装置,所述装置包括:向量确定模块,用于根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量,确定所述每个待测文本的文本向量;发散度确定模块,用于根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度;相似度确定模块,用于根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度;相似度修正模块,用于通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。可选的,所述向量确定模块,用于:对所述每个待测文本进行词语切割,以获取所述每个待测文本中包含的多个词语和所述词语数量;将每个所述词语转化为词向量;获取所述多个词语的词向量的向量加和;将所述向量加和除以所述词语数量的结果作为所述文本向量。可选的,所述发散度确定模块,用于:计算所述每个词语的词向量与所述文本向量的余弦相似度;获取所述多个词语的词向量对应的余弦相似度的相似度加和;将所述相似度加和除以所述词语数量的结果作为所述语义发散度。可选的,所述相似度修正模块,用于:根据两个所述待测文本的语义发散度的差值和预设的阻尼指数,确定两个所述待测文本对应的发散度因子;将所述发散度因子和所述内容因子作为预设的相似度系数算法的输入,以获取所述相似度系数算法输出的相似度系数;将所述相似度系数与所述文本相似度的乘积作为所述目标文本相似度。可选的,若所述发散度因子大于预设阈值,所述相似度系数算法表示为:PenaltyTerm=(1+a)tanh(DivergenceFactor);若所述发散度因子小于或等于预设阈值,所述相似度系数算法表示为:其中,所述PenaltyTerm为所述相似度系数,所述DivergenceFactor为所述发散度因子,所述DivergenceFactor为所述发散度因子,所述a为所述内容因子。可选的,所述相似度确定模块,用于:将两个所述待测文本作为所述相似度评价模型的输入,以获取所述相似度评价模型输出的第一文本相似度作为所述文本相似度;或者,通过预设的摘要提取模型,根据所述语义发散度确定每个所述待测文件的本文摘要;将所述文本摘要作为所述相似度评价模型的输入,以将所述相似度评价模型输出的第二文本相似度作为所述文本相似度。可选的,所述相似度确定模块,用于:根据所述待测文本的语义发散度、段落数量和句子数量,确定目标数量;将所述句子数量作为所述摘要提取模型的参数,通过所述摘要提取模型确定所述待测文本的本文摘要,所述文本摘要的句子数量为所述目标数量。根据本公开实施例的第三方面,本文档来自技高网...

【技术保护点】
1.一种文本相似度确定方法,其特征在于,所述方法包括:/n根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量,确定所述每个待测文本的文本向量;/n根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度,所述语义发散度用于表征所述每个待测文本的内容所涵盖的领域的广泛程度;/n根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度;/n通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。/n

【技术特征摘要】
1.一种文本相似度确定方法,其特征在于,所述方法包括:
根据每个待测文本中的每个词语的词向量以及所述每个待测文本的词语数量,确定所述每个待测文本的文本向量;
根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度,所述语义发散度用于表征所述每个待测文本的内容所涵盖的领域的广泛程度;
根据预设的相似度评价模型确定两个所述待测文本之间的文本相似度;
通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,所述内容因子用于表征两个所述待测文本的文本内容对所述文本相似度的影响程度。


2.根据权利要求1所述的方法,其特征在于,所述根据待测文本中的每个词语的词向量以及所述待测文本的词语数量,确定所述待测文本的文本向量,包括:
对所述每个待测文本进行词语切割,以获取所述每个待测文本中包含的多个词语和所述词语数量;
将所述每个词语转化为词向量;
获取所述多个词语的词向量的向量加和;
将所述向量加和除以所述词语数量的结果作为所述文本向量。


3.根据权利要求1所述的方法,其特征在于,所述根据所述每个词语的词向量与所述文本向量的相似度以及所述词语数量,确定所述每个待测文本的语义发散度,包括:
计算所述每个词语的词向量与所述文本向量的余弦相似度;
获取所述多个词语的词向量对应的余弦相似度的相似度加和;
将所述相似度加和除以所述词语数量的结果作为所述语义发散度。


4.根据权利要求1所述的方法,其特征在于,所述通过两个所述待测文本的语义发散度和预设的内容因子对所述文本相似度进行修正,以获取两个所述待测文本之间的目标文本相似度,包括:
根据两个所述待测文本的语义发散度的差值和预设的阻尼指数,确定两个所述待测文本对应的发散度因子;
将所述发散度因子和所述内容因子作为预设的相似度系数算法的输入,以获取所述相似度系数算法输出的相似度系数;
将所述相似度系数与所述文本相似度的乘积作为所述目标文本相似度。


5.根据权利要求4所述的方法,其特征在于,
若所述发散度因子大于预设阈值,所述相似度系数算法表示为:
PenaltyTerm=(1+a)tanh(DivergenceFac...

【专利技术属性】
技术研发人员:赵耕弘崔朝辉赵立军张霞
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1