文本相似度的计算方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35303870 阅读:20 留言:0更新日期:2022-10-22 12:53
本申请涉及人工智能技术领域,特别涉及一种文本相似度的计算方法、装置、电子设备及存储介质,其中,方法包括:获取用户输入的第一文本和第二文本;将第一文本和第二文本输入训练完成的词性分析模型中,输出第一文本的第一词性信息和第二文本的第二词性信息,其中,词性分析模型基于携带有词性标签的第一训练样本训练得到;将第一词性信息和第二词性信息输入训练完成的相似度预测模型中,输出第一文本和第二文本之间的文本相似度结果,其中,相似度预测模型基于携带文本相似度标签的第二训练样本训练得到。由此,解决了相关技术中对于文本间的交互操作模糊,导致语义焦点丢失,降低文本相似度识别的准确性,用户体验较差等问题。题。题。

【技术实现步骤摘要】
文本相似度的计算方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,特别涉及一种文本相似度的计算方法、装置、电子设备及存储介质。

技术介绍

[0002]随着智能客服、对话机器人等人工智能技术的飞速发展,且智能问答为该人工智能技术的重要影响因素,因此如何提升智能问答识别的准确性尤为重要。其中,文本相似度识别是实现智能问答的关键之一,而用户输入信息表达多样,如部分词语省略、词语倒叙等,均会对文本相似度带来一定的难度。
[0003]相关技术中,通过人工构建特征的方式对比文本间的语义相似度,在提取出这些人造特征后使用传统的机器学习模型计算文本相似度。然而,相关技术中对于文本间的交互操作模糊,无法明确文本之间的相互影响的信息,容易丢失语义焦点,大大降低文本相似度识别的精度,用户体验不佳。

技术实现思路

[0004]本申请提供一种文本相似度的计算方法、装置、电子设备及存储介质,以解决相关技术中对于文本间的交互操作模糊,导致语义焦点丢失,降低文本相似度识别的准确性,用户体验较差等问题。
[0005]本申请第一方面实施例提供一种文本相似度的计算方法,包括以下步骤:获取用户输入的第一文本和第二文本;将所述第一文本和所述第二文本输入训练完成的词性分析模型中,输出所述第一文本的第一词性信息和所述第二文本的第二词性信息,其中,所述词性分析模型基于携带有词性标签的第一训练样本训练得到;将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中,输出所述第一文本和所述第二文本之间的文本相似度结果,其中,所述相似度预测模型基于携带文本相似度标签的第二训练样本训练得到。
[0006]根据上述技术手段,本申请实施例可以基于词性信息帮助模型确定语义焦点,实现文本相似度快速准确的识别,从而可以明确对于文本间的交互操作,避免文本语义焦点丢失的情况,有效提升文本相似度识别的精度,并且可以基于模型识别词性和相似度,提升识别的速度,提高用户的使用体验。
[0007]可选地,在本申请的一个实施例中,所述将所述第一文本和所述第二文本输入训练完成的词性分析模型中,输出所述第一文本的第一词性信息和所述第二文本的第二词性信息,包括:从垂直域中提取所述第一文本和所述第二文本的至少一个目标关键词;识别每个目标关键词的实际词性,并对所述每个目标关键词进行词性标注,得到所述第一词性信息和所述第二词性信息。
[0008]根据上述技术手段,本申请实施例可以从垂直域中提取文本信息的目标关键词并识别实际词性,通过对关键词进行标注得到文本的词性信息,可靠性和准确性更高。
[0009]可选地,在本申请的一个实施例中,所述词性分析模型基于携带有词性标签的第一训练样本训练得到,包括:获取携带有词性标签的第一训练样本;从垂直域中提取所述第一训练样本的至少一个目标关键词;识别每个目标关键词的实际词性,并对所述每个目标关键词进行词性标注,直到标注的关键词数量满足预设数量时,得到所述词性分析模型。
[0010]根据上述技术手段,本申请实施例可以从垂直区域提取到携带有词性标签的训练样本的目标关键词,通过识别每个目标关键词的实际词性并进行标注满足预设数量时,得到词性分析模型,计算量小,准确率高。
[0011]可选地,在本申请的一个实施例中,所述将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中,输出所述第一文本和所述第二文本之间的文本相似度结果,包括:将所述第一词性信息和所述第二词性信息输入句子编码网络,输出所述第一词性信息的第一句子编码结果和所述第二词性信息的第二句子编码结果;将所述第一句子编码结果和所述第二句子编码结果输入词性注意力网络,输出所述第一句子编码结果的第一特征向量和所述第二句子编码结果的第二特征向量;拼接所述第一特征向量和所述第二特征向量,得到拼接结果,并将所述拼接结果输入全连接层进行分类,并根据分类结果匹配得到所述文本相似度结果。
[0012]根据上述技术手段,本申请实施例可以利用词性信息对句子进行编码,使得模型能够更好的把握语义焦点,提升模型效果的同时却不增加太多模型推理时间,且具备落地能力,从而无需使用大型的预训练模型,即可在兼顾推理速度的同时获得良好的相似度计算效果。
[0013]可选地,在本申请的一个实施例中,所述相似度预测模型基于携带文本相似度标签的第二训练样本训练得到,包括:获取携带文本相似度标签的第二训练样本,其中,所述第二训练样本包括第一训练文本的词性信息和第二训练文本的词性信息;将所述第一训练文本的词性信息和所述第二训练文本的词性信息输入句子编码网络,输出所述第一训练文本的词性信息的第一句子编码结果和所述第二训练文本的词性信息的第二句子编码结果;将所述第一句子编码结果和所述第二句子编码结果输入词性注意力网络,输出所述第一句子编码结果的第一特征向量和所述第二句子编码结果的第二特征向量;拼接所述第一特征向量和所述第二特征向量,得到拼接结果,并将所述拼接结果输入全连接层进行分类,并根据分类结果匹配得到所述文本相似度结果,直到满足训练迭代终止条件,得到所述相似度预测模型。
[0014]根据上述技术手段,本申请实施例可以将携带文本相似度标签的训练样本增加词性注意力网络,使得网络可以利用传入的词性先验知识基于词性进行句子编码,得到拼接结果并输入全连接层进行分类,匹配得到文本相似度结果,进行多训练,得到相似度预测模型,准确性高,使得模型能够更好的把握语义焦点,提高了文本相似度计算的效率。
[0015]本申请第二方面实施例提供一种文本相似度的计算装置,包括:获取模块,用于获取用户输入的第一文本和第二文本;分析模块,用于将所述第一文本和所述第二文本输入训练完成的词性分析模型中,输出所述第一文本的第一词性信息和所述第二文本的第二词性信息,其中,所述词性分析模型基于携带有词性标签的第一训练样本训练得到;计算模块,用于将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中,输出所述第一文本和所述第二文本之间的文本相似度结果,其中,所述相似度预测模型基于
携带文本相似度标签的第二训练样本训练得到。
[0016]可选地,在本申请的一个实施例中,所述分析模块包括:提取单元,用于从垂直域中提取所述第一文本和所述第二文本的至少一个目标关键词;识别单元,用于识别每个目标关键词的实际词性,并对所述每个目标关键词进行词性标注,得到所述第一词性信息和所述第二词性信息。
[0017]可选地,在本申请的一个实施例中,还包括:第一训练模块,用于获取携带有词性标签的第一训练样本,从垂直域中提取所述第一训练样本的至少一个目标关键词,识别每个目标关键词的实际词性,并对所述每个目标关键词进行词性标注,直到标注的关键词数量满足预设数量时,得到所述词性分析模型。
[0018]可选地,在本申请的一个实施例中,所述计算模块包括:第一生成单元,用于将所述第一词性信息和所述第二词性信息输入句子编码网络,输出所述第一词性信息的第一句子编码结果和所述第二词性信息的第二句子编码结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本相似度的计算方法,其特征在于,包括以下步骤:获取用户输入的第一文本和第二文本;将所述第一文本和所述第二文本输入训练完成的词性分析模型中,输出所述第一文本的第一词性信息和所述第二文本的第二词性信息,其中,所述词性分析模型基于携带有词性标签的第一训练样本训练得到;将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中,输出所述第一文本和所述第二文本之间的文本相似度结果,其中,所述相似度预测模型基于携带文本相似度标签的第二训练样本训练得到。2.根据权利要求1所述的方法,其特征在于,所述将所述第一文本和所述第二文本输入训练完成的词性分析模型中,输出所述第一文本的第一词性信息和所述第二文本的第二词性信息,包括:从垂直域中提取所述第一文本和所述第二文本的至少一个目标关键词;识别每个目标关键词的实际词性,并对所述每个目标关键词进行词性标注,得到所述第一词性信息和所述第二词性信息。3.根据权利要求1或2所述的方法,其特征在于,所述词性分析模型基于携带有词性标签的第一训练样本训练得到,包括:获取携带有词性标签的第一训练样本;从垂直域中提取所述第一训练样本的至少一个目标关键词;识别每个目标关键词的实际词性,并对所述每个目标关键词进行词性标注,直到标注的关键词数量满足预设数量时,得到所述词性分析模型。4.根据权利要求1所述的方法,其特征在于,所述将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中,输出所述第一文本和所述第二文本之间的文本相似度结果,包括:将所述第一词性信息和所述第二词性信息输入句子编码网络,输出所述第一词性信息的第一句子编码结果和所述第二词性信息的第二句子编码结果;将所述第一句子编码结果和所述第二句子编码结果输入词性注意力网络,输出所述第一句子编码结果的第一特征向量和所述第二句子编码结果的第二特征向量;拼接所述第一特征向量和所述第二特征向量,得到拼接结果,并将所述拼接结果输入全连接层进行分类,并根据分类结果匹配得到所述文本相似度结果。5.根据权利要求1或4所述的方法,其特征在于,所述相似度预测模型基于携带文本相似度标签的第二训练样本训练得到,包括:获取携带文本相似度标签的第二训练样本,其中,所述第二训练样本包括第一训练文本的词性信息和第二训练文本的词性信息;将所述第一训练文本的词性信息和所述第二训练文本的词性信息输入句子编码网络,输出所述第一训练文本的词性信息的第一句子编码结果和...

【专利技术属性】
技术研发人员:杨稷龙美元
申请(专利权)人:重庆长安汽车股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1