文本相似度分析方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:27686491 阅读:26 留言:0更新日期:2021-03-17 04:00
本申请提供一种文本相似度分析方法、装置、电子设备及可读存储介质,涉及信息分析技术领域。所述文本相似度分析方法包括:获取第一语句和第二语句,所述第一语句和所述第二语句均包括至少两个词语;生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合,其中,所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组,所述三元组包括两个词语及所述两个词语之间的语法关系;根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度。本申请提供的技术方案能够解决现有技术中对语句相似度的分析结果准确性较低的问题。

【技术实现步骤摘要】
文本相似度分析方法、装置、电子设备及可读存储介质
本申请涉及信息分析
,具体涉及一种文本相似度分析方法、装置、电子设备及可读存储介质。
技术介绍
句子作为在词语之上、段落之下的结构形式在语言处理的各项工作中都扮演着重要角色,而对于句子的相似性分析也逐渐成为文本研究的重要方向之一。目前通常基于词的层面来分析两个句子之间是否相似,具体方式为,寻找句子中每个词在另一个句子中语义相近的词,并基于这些语义相近的词来计算两个句子之间的相似度,用以判断两者是否相似。但由于句子语义的复杂性,这种基于词的层面对于两个句子是否相似的分析结果,通常准确性较低。
技术实现思路
本申请实施例提供一种文本相似度分析方法、装置、电子设备及可读存储介质,能够解决现有技术中对语句相似度的分析结果准确性较低的问题。为了解决上述技术问题,本申请是这样实现的:第一方面,本申请实施例提供了一种文本相似度分析方法,包括:获取第一语句和第二语句,所述第一语句和所述第二语句均包括至少两个词语;生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合,其中,所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组,所述三元组包括两个词语及所述两个词语之间的语法关系;根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度。可选地,所述第一三元组集合中的三元组为第一三元组,所述第二三元组集合中的三元组为第二三元组;所述根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度,包括:将所述第一三元组集合中的每一个第一三元组与所述第二三元组集合中的每一个第二三元组进行组合,获得多个配对三元组;所述配对三元组包括一个第一三元组和一个第二三元组;获取每个配对三元组的相似度值;基于所述每个配对三元组的相似度值,获取所述第一语句与所述第二语句的文本相似度。可选地,所述获取每个配对三元组的相似度值,包括:基于每个配对三元组中的第一三元组中的两个词语和第二三元组中的两个词语,获取所述每个配对三元组的词语匹配得分;基于所述每个配对三元组中所述第一三元组中的语法关系和所述第二三元组中的语法关系,获取所述每个配对三元组的语法关系匹配得分;基于所述词语匹配得分和所述语法关系匹配得分,计算所述每个配对三元组的相似度值。可选地,所述每个配对三元组均包括第一配对词语和第二配对词语,所述第一配对词语为组成所述配对三元组的第一三元组中的第一词语和第二三元组中的第三词语和第四词语中的一个,所述第二配对词语为组成所述配对三元组的第一三元组中的第二词语和第二三元组中的所述第三词语和所述第四词语中的另一个;所述基于每个配对三元组中所述第一三元组中的两个词语和所述第二三元组中的两个词语,获取所述每个配对三元组的词语匹配得分,包括:基于词向量的余弦相似度算法,获取每个配对三元组中第一配对词语的第一分值和第二配对词语的第二分值;对所述第一分值和所述第二分值进行加权求和计算,获取所述每个配对三元组的词语匹配得分。可选地,所述每个配对三元组均包括第三配对词语,所述第三配对词语包括第一短语和第二短语,所述第一短语为组成所述配对三元组的第一三元组中的第一词语和第二词语,所述第二短语为组成所述配对三元组的第二三元组中的第三词语和第四词语;所述基于每个配对三元组中所述第一三元组中的两个词语和所述第二三元组中的两个词语,获取所述每个配对三元组的词语匹配得分,包括:基于词向量的余弦相似度算法,获取每个配对三元组中第三配对词语的第三分值,所述第三分值为对应的配对三元组的词语匹配得分。可选地,所述基于所述每个配对三元组的相似度值,获取所述第一语句与所述第二语句的文本相似度,包括:获取目标第一三元组与每一个第二三元组形成的配对三元组中,相似度值最高的目标配对三元组;确定每一个所述第一三元组对应的目标配对三元组;基于预设的语句权重值表,获取每一个目标配对三元组对应的权重值;基于所述目标配对三元组的相似度值及对应的所述权重值,获取所述第一语句与所述第二语句的文本相似度。可选地,所述基于所述目标配对三元组的相似度值及对应的所述权重值,获取所述第一语句与所述第二语句的文本相似度,包括:获取所述目标配对三元组中包括的预设词语的数量,确定所述目标配对三元组的权重衰减系数;基于所述权重衰减系数对所述目标配对三元组对应的权重值进行衰减;基于所述目标配对三元组的相似度值及衰减后的权重值,获取所述第一语句与所述第二语句的文本相似度。第二方面,本申请实施例提供了一种文本相似度分析装置,包括:第一获取模块,用于获取第一语句和第二语句,所述第一语句和所述第二语句均包括至少两个词语;生成模块,用于生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合,其中,所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组,所述三元组包括两个词语及所述两个词语之间的语法关系;第二获取模块,用于根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度。第三方面,本申请实施例提供了一种电子设备,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面中所述的文本相似度分析方法的步骤。第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的文本相似度分析方法的步骤。第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的文本相似度分析方法。本申请实施例中,通过生成第一语句的第一三元组集合和第二语句的第二三元组集合,所述三元组包括两个词语及所述两个词语之间的语法关系,因而在根据所述第一三元组集合和所述第二三元组集合获取第一语句和第二语句的文本相似度时,不仅只是获取第一语句中词语的相似度,还包括获取词语之间的语法关系的相似度,基于语法关系能够更好地考虑到句子的语义,这样也就更进一步提高了对两个语句之间相似度分析的准确性。附图说明图1是本申请实施例提供的一种文本相似度分析方法的流程图;图1a是本申请实施例提供的另一种文本相似度分析方法的流程图;图2是本申请实施例提供的一种文本相似度分析装置的结构图;图3是本申请实施例提供的一种电子设备的结构图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术本文档来自技高网...

【技术保护点】
1.一种文本相似度分析方法,其特征在于,包括:/n获取第一语句和第二语句,所述第一语句和所述第二语句均包括至少两个词语;/n生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合,其中,所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组,所述三元组包括两个词语及所述两个词语之间的语法关系;/n根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度。/n

【技术特征摘要】
1.一种文本相似度分析方法,其特征在于,包括:
获取第一语句和第二语句,所述第一语句和所述第二语句均包括至少两个词语;
生成所述第一语句的第一三元组集合和所述第二语句的第二三元组集合,其中,所述第一三元组集合和所述第二三元组集合中均包括至少一个三元组,所述三元组包括两个词语及所述两个词语之间的语法关系;
根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度。


2.根据权利要求1所述的方法,其特征在于,所述第一三元组集合中的三元组为第一三元组,所述第二三元组集合中的三元组为第二三元组;
所述根据所述第一三元组集合中的三元组和所述第二三元组集合中的三元组,获取所述第一语句与所述第二语句的文本相似度,包括:
将所述第一三元组集合中的每一个第一三元组与所述第二三元组集合中的每一个第二三元组进行组合,获得多个配对三元组;所述配对三元组包括一个第一三元组和一个第二三元组;
获取每个配对三元组的相似度值;
基于所述每个配对三元组的相似度值,获取所述第一语句与所述第二语句的文本相似度。


3.根据权利要求2所述的方法,其特征在于,所述获取每个配对三元组的相似度值,包括:
基于每个配对三元组中的第一三元组中的两个词语和第二三元组中的两个词语,获取所述每个配对三元组的词语匹配得分;
基于所述每个配对三元组中所述第一三元组中的语法关系和所述第二三元组中的语法关系,获取所述每个配对三元组的语法关系匹配得分;
基于所述词语匹配得分和所述语法关系匹配得分,计算所述每个配对三元组的相似度值。


4.根据权利要求3所述的方法,其特征在于,所述每个配对三元组均包括第一配对词语和第二配对词语,所述第一配对词语为组成所述配对三元组的第一三元组中的第一词语和第二三元组中的第三词语和第四词语中的一个,所述第二配对词语为组成所述配对三元组的第一三元组中的第二词语和第二三元组中的所述第三词语和所述第四词语中的另一个;
所述基于每个配对三元组中所述第一三元组中的两个词语和所述第二三元组中的两个词语,获取所述每个配对三元组的词语匹配得分,包括:
基于词向量的余弦相似度算法,获取每个配对三元组中第一配对词语的第一分值和第二配对词语的第二分值;
对所述第一分值和所述第二分值进行加权求和计算,获取所述每个配对三元组的词语匹配得分。


5.根据权利要求3所述的方法,其特征在于,所述每个配对三元组均包括第三配对词语,所述第三配对词语包括第一...

【专利技术属性】
技术研发人员:徐欣辰
申请(专利权)人:咪咕数字传媒有限公司咪咕文化科技有限公司中国移动通信集团有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1