文本相似度分析方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号：27686491 阅读：26 留言：0更新日期：2021-03-17 04:00

本申请提供一种文本相似度分析方法、装置、电子设备及可读存储介质，涉及信息分析技术领域。所述文本相似度分析方法包括：获取第一语句和第二语句，所述第一语句和所述第二语句均包括至少两个词语；生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合，其中，所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组，所述三元组包括两个词语及所述两个词语之间的语法关系；根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组，获取所述第一语句与所述第二语句的文本相似度。本申请提供的技术方案能够解决现有技术中对语句相似度的分析结果准确性较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
文本相似度分析方法、装置、电子设备及可读存储介质
本申请涉及信息分析
，具体涉及一种文本相似度分析方法、装置、电子设备及可读存储介质。
技术介绍
句子作为在词语之上、段落之下的结构形式在语言处理的各项工作中都扮演着重要角色，而对于句子的相似性分析也逐渐成为文本研究的重要方向之一。目前通常基于词的层面来分析两个句子之间是否相似，具体方式为，寻找句子中每个词在另一个句子中语义相近的词，并基于这些语义相近的词来计算两个句子之间的相似度，用以判断两者是否相似。但由于句子语义的复杂性，这种基于词的层面对于两个句子是否相似的分析结果，通常准确性较低。
技术实现思路
本申请实施例提供一种文本相似度分析方法、装置、电子设备及可读存储介质，能够解决现有技术中对语句相似度的分析结果准确性较低的问题。为了解决上述技术问题，本申请是这样实现的：第一方面，本申请实施例提供了一种文本相似度分析方法，包括：获取第一语句和第二语句，所述第一语句和所述第二语句均包括至少两个词语；生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合，其中，所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组，所述三元组包括两个词语及所述两个词语之间的语法关系；根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组，获取所述第一语句与所述第二语句的文本相似度。可选地，所述第一三元组集合中的三元组为第一三元组，所述第二三元组集合中的三元组为第二三元组；所述根据所述第...

【技术保护点】
1.一种文本相似度分析方法，其特征在于，包括：/n获取第一语句和第二语句，所述第一语句和所述第二语句均包括至少两个词语；/n生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合，其中，所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组，所述三元组包括两个词语及所述两个词语之间的语法关系；/n根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组，获取所述第一语句与所述第二语句的文本相似度。/n

【技术特征摘要】
1.一种文本相似度分析方法，其特征在于，包括：
获取第一语句和第二语句，所述第一语句和所述第二语句均包括至少两个词语；
生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合，其中，所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组，所述三元组包括两个词语及所述两个词语之间的语法关系；
根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组，获取所述第一语句与所述第二语句的文本相似度。

2.根据权利要求1所述的方法，其特征在于，所述第一三元组集合中的三元组为第一三元组，所述第二三元组集合中的三元组为第二三元组；
所述根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组，获取所述第一语句与所述第二语句的文本相似度，包括：
将所述第一三元组集合中的每一个第一三元组与所述第二三元组集合中的每一个第二三元组进行组合，获得多个配对三元组；所述配对三元组包括一个第一三元组和一个第二三元组；
获取每个配对三元组的相似度值；
基于所述每个配对三元组的相似度值，获取所述第一语句与所述第二语句的文本相似度。

3.根据权利要求2所述的方法，其特征在于，所述获取每个配对三元组的相似度值，包括：
基于每个配对三元组中的第一三元组中的两个词语和第二三元组中的两个词语，获取所述每个配对三元组的词语匹配得分；
基于所述每个配对三元组中所述第一三元组中的语法关系和所述第二三元组中的语法关系，获取所述每个配对三元组的语法关系匹配得分；
基于所述词语匹配得分和所述语法关系匹配得分，计算所述每个配对三元组的相似度值。

4.根据权利要求3所述的方法，其特征在于，所述每个配对三元组均包括第一配对词语和第二配对词语，所述第一配对词语为组成所述配对三元组的第一三元组中的第一词语和第二三元组中的第三词语和第四词语中的一个，所述第二配对词语为组成所述配对三元组的第一三元组中的第二词语和第二三元组中的所述第三词语和所述第四词语中的另一个；
所述基于每个配对三元组中所述第一三元组中的两个词语和所述第二三元组中的两个词语，获取所述每个配对三元组的词语匹配得分，包括：
基于词向量的余弦相似度算法，获取每个配对三元组中第一配对词语的第一分值和第二配对词语的第二分值；
对所述第一分值和所述第二分值进行加权求和计算，获取所述每个配对三元组的词语匹配得分。

5.根据权利要求3所述的方法，其特征在于，所述每个配对三元组均包括第三配对词语，所述第三配对词语包括第一...

【专利技术属性】
技术研发人员：徐欣辰，
申请(专利权)人：咪咕数字传媒有限公司，咪咕文化科技有限公司，中国移动通信集团有限公司，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人