文本相似度的计算方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35303870 阅读：20 留言：0更新日期：2022-10-22 12:53

本申请涉及人工智能技术领域，特别涉及一种文本相似度的计算方法、装置、电子设备及存储介质，其中，方法包括：获取用户输入的第一文本和第二文本；将第一文本和第二文本输入训练完成的词性分析模型中，输出第一文本的第一词性信息和第二文本的第二词性信息，其中，词性分析模型基于携带有词性标签的第一训练样本训练得到；将第一词性信息和第二词性信息输入训练完成的相似度预测模型中，输出第一文本和第二文本之间的文本相似度结果，其中，相似度预测模型基于携带文本相似度标签的第二训练样本训练得到。由此，解决了相关技术中对于文本间的交互操作模糊，导致语义焦点丢失，降低文本相似度识别的准确性，用户体验较差等问题。题。题。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度的计算方法、装置、电子设备及存储介质

[0001]本申请涉及人工智能
，特别涉及一种文本相似度的计算方法、装置、电子设备及存储介质。

技术介绍

[0002]随着智能客服、对话机器人等人工智能技术的飞速发展，且智能问答为该人工智能技术的重要影响因素，因此如何提升智能问答识别的准确性尤为重要。其中，文本相似度识别是实现智能问答的关键之一，而用户输入信息表达多样，如部分词语省略、词语倒叙等，均会对文本相似度带来一定的难度。
[0003]相关技术中，通过人工构建特征的方式对比文本间的语义相似度，在提取出这些人造特征后使用传统的机器学习模型计算文本相似度。然而，相关技术中对于文本间的交互操作模糊，无法明确文本之间的相互影响的信息，容易丢失语义焦点，大大降低文本相似度识别的精度，用户体验不佳。

技术实现思路

[0004]本申请提供一种文本相似度的计算方法、装置、电子设备及存储介质，以解决相关技术中对于文本间的交互操作模糊，导致语义焦点丢失，降低文本相似度识别的准确性，用户体验较差等问题。
[0005]本申请第一方面实施例提供一种文本相似度的计算方法，包括以下步骤：获取用户输入的第一文本和第二文本；将所述第一文本和所述第二文本输入训练完成的词性分析模型中，输出所述第一文本的第一词性信息和所述第二文本的第二词性信息，其中，所述词性分析模型基于携带有词性标签的第一训练样本训练得到；将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中，输出所述第一文本和所述第二文本之间的文本...

【技术保护点】

【技术特征摘要】
1.一种文本相似度的计算方法，其特征在于，包括以下步骤：获取用户输入的第一文本和第二文本；将所述第一文本和所述第二文本输入训练完成的词性分析模型中，输出所述第一文本的第一词性信息和所述第二文本的第二词性信息，其中，所述词性分析模型基于携带有词性标签的第一训练样本训练得到；将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中，输出所述第一文本和所述第二文本之间的文本相似度结果，其中，所述相似度预测模型基于携带文本相似度标签的第二训练样本训练得到。2.根据权利要求1所述的方法，其特征在于，所述将所述第一文本和所述第二文本输入训练完成的词性分析模型中，输出所述第一文本的第一词性信息和所述第二文本的第二词性信息，包括：从垂直域中提取所述第一文本和所述第二文本的至少一个目标关键词；识别每个目标关键词的实际词性，并对所述每个目标关键词进行词性标注，得到所述第一词性信息和所述第二词性信息。3.根据权利要求1或2所述的方法，其特征在于，所述词性分析模型基于携带有词性标签的第一训练样本训练得到，包括：获取携带有词性标签的第一训练样本；从垂直域中提取所述第一训练样本的至少一个目标关键词；识别每个目标关键词的实际词性，并对所述每个目标关键词进行词性标注，直到标注的关键词数量满足预设数量时，得到所述词性分析模型。4.根据权利要求1所述的方法，其特征在于，所述将所述第一词性信息和所述第二词性信息输入训练完成的相似度预测模型中，输出所述第一文本和所述第二文本之间的文本相似度结果，包括：将所述第一词性信息和所述第二词性信息输入句子编码网络，输出所述第一词性信息的第一句子编码结果和所述第二词性信息的第二句子编码结果；将所述第一句子编码结果和所述第二句子编码结果输入词性注意力网络，输出所述第一句子编码结果的第一特征向量和所述第二句子编码结果的第二特征向量；拼接所述第一特征向量和所述第二特征向量，得到拼接结果，并将所述拼接结果输入全连接层进行分类，并根据分类结果匹配得到所述文本相似度结果。5.根据权利要求1或4所述的方法，其特征在于，所述相似度预测模型基于携带文本相似度标签的第二训练样本训练得到，包括：获取携带文本相似度标签的第二训练样本，其中，所述第二训练样本包括第一训练文本的词性信息和第二训练文本的词性信息；将所述第一训练文本的词性信息和所述第二训练文本的词性信息输入句子编码网络，输出所述第一训练文本的词性信息的第一句子编码结果和...

【专利技术属性】
技术研发人员：杨稷，龙美元，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人