一种文本相似度计算方法、装置、电子设备及存储介质制造方法及图纸

技术编号:20242570 阅读:34 留言:0更新日期:2019-01-29 23:24
本发明专利技术实施例公开了一种文本相似度计算方法、装置、电子设备及存储介质,所述方法包括:根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。通过采用上述技术方案,可计算出与输入文本最合适的候选答案集合,由机器人自动对输入文本进行回复,有效提高了候选答案与输入文本的相关度,提高了文本相似度的计算精度。

【技术实现步骤摘要】
一种文本相似度计算方法、装置、电子设备及存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。
技术介绍
目前,基于iOS平台或者基于Android平台的直播间应用程序发展迅速,深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛围。在机器人会话领域中,其中一个重要环节是找出与输入语句语义相似度最高的回复。同样,在直播间经常需要根据水友弹幕,计算与其相似度较高的回复,由机器人针对水友弹幕进行自动回复。目前,在直播间中通常采用TF-IDF(TermFrequency-InverseDocumentFrequency,词频逆文本频率)算法计算两条弹幕之间的相似度,但是,TF-IDF算法的主要思想是基于词或者短语在文档集中出现的频率分布决定每篇文档的关键词,然后根据关键词在文档集中出现的次数构建词频向量,通过计算文档的词频向量之间的相似度确定文档之间的相似度,可见,TF-IDF算法仅考虑了文档中词的词频,或者说仅考虑了文档中词的重要程度。因此,为了提高文本相似度计算精度,需要对现有相似度计算算法继续进行改进。
技术实现思路
本专利技术实施例提供一种文本相似度计算方法、装置、电子设备及存储介质,通过所述方法可提高文本相似度的计算精度。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种文本相似度计算方法,所述方法包括:根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。进一步的,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度,包括:按照如下公式计算所述两个待匹配文本句的句型相似度:其中,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,wk表示待匹配文本句A与待匹配文本句B中相同词出现的次数,若所述相同词在待匹配文本句A中出现的次数与在待匹配文本句B中出现的次数不同,则取较小值,k表示待匹配文本句A与待匹配文本句B中相同词的个数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。进一步的,所述根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度,包括:按照如下公式计算所述两个待匹配文本句的语义相似度:其中,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。进一步的,所述根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度,包括:按照如下公式计算所述两个待匹配文本句的综合相似度:其中,SenSim(A,B)表示待匹配文本句A与待匹配文本句B的综合相似度,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,SemanticSim(A,B)表示待匹配文本句A与待匹配文本句B的语义相似度,为句型相似度对应的权重,为语义相似度对应的权重。进一步的,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;或者根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度之前,所述方法还包括:对所述两个待匹配文本句进行分词以及词性标注处理。进一步的,所述对所述两个待匹配文本句进行分词以及词性标注处理,包括:利用python中的jieba分词工具对所述两个待匹配文本句进行分词以及词性标注处理。第二方面,本专利技术实施例提供了一种文本相似度计算装置,所述装置包括:句型相似度计算模块,用于根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;语义相似度计算模块,用于根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;综合相似度计算模块,用于根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文本相似度计算方法。第四方面,本专利技术实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的文本相似度计算方法。本专利技术实施例提供的一种文本相似度计算方法,通过根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度的技术手段,提高了文本相似度的计算精度,进而提高了相似文本的匹配准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施例的内容和这些附图获得其他的附图。图1为本专利技术实施例一提供的一种文本相似度计算方法流程示意图;图2为本专利技术实施例二提供的一种文本相似度计算装置结构示意图;图3为本专利技术实施例三提供的一种电子设备的结构示意图。具体实施方式为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术实施例一提供的一种文本相似度计算方法流程示意图。本实施例公开的文本相似度计算方法适用于机器人会话领域,从语料库中匹配出与输入语句语义相似度最高的答复语句,以针对输入语句自动进行回复,该场景下,所述输入语句即为待匹配文本句A,语料库中的任意语句为待匹配文本句B。本实施例公开的文本相似度计算方法还适用于在直播间中匹配出与水友弹幕相似度最高的语句,以使机器人自动对水友弹幕进行回复。所本文档来自技高网...

【技术保护点】
1.一种文本相似度计算方法,其特征在于,包括:根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。

【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,包括:根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度;根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度;根据所述句型相似度和所述语义相似度确定所述两个待匹配文本句的综合相似度。2.根据权利要求1所述的方法,其特征在于,所述根据两个待匹配文本句中相同词的个数、每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的句型相似度,包括:按照如下公式计算所述两个待匹配文本句的句型相似度:其中,WordSim(A,B)表示待匹配文本句A与待匹配文本句B的句型相似度,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,wk表示待匹配文本句A与待匹配文本句B中相同词出现的次数,若所述相同词在待匹配文本句A中出现的次数与在待匹配文本句B中出现的次数不同,则取较小值,k表示待匹配文本句A与待匹配文本句B中相同词的个数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。3.根据权利要求1所述的方法,其特征在于,所述根据每个词在每个待匹配文本句中出现的次数以及所述每个词的词性权重计算所述两个待匹配文本句的语义相似度,包括:按照如下公式计算所述两个待匹配文本句的语义相似度:其中,LA表示待匹配文本句A中词的总数,LB表示待匹配文本句B中词的总数,xi表示待匹配文本句A中的第i个词出现的次数,hi表示待匹配文本句A中的第i个词的词性权重,yj表示待匹配文本句B中的第j个词出现的次数,hj表示待匹配文本句B中的第j个词的词性权重。4.根据权利要求1所述的方法,其特征在于,所述根据所述句型相似度和所述语义相似度确定...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1