【技术实现步骤摘要】
一种文本相似度计算方法、装置、电子设备及存储介质
本专利技术实施例涉及数据处理
,尤其涉及一种文本相似度计算方法、装置、电子设备及存储介质。
技术介绍
目前,基于iOS平台或者基于Android平台的直播间应用程序发展迅速,深受用户喜爱。弹幕是直播平台一种非常流行的用于信息交流以及信息共享的表达方式,通过弹幕可以实现观众与主播之间的互动,有助于营造良好的直播氛围。在机器人会话领域中,其中一个重要环节是找出与输入语句语义相似度最高的回复。同样,在直播间经常需要根据水友弹幕,计算与其相似度较高的回复,由机器人针对水友弹幕进行自动回复。目前,在直播间中通常采用TF-IDF(TermFrequency-InverseDocumentFrequency,词频逆文本频率)算法计算两条弹幕之间的相似度,但是,TF-IDF算法的主要思想是基于词或者短语在文档集中出现的频率分布决定每篇文档的关键词,然后根据关键词在文档集中出现的次数构建词频向量,通过计算文档的词频向量之间的相似度确定文档之间的相似度,可见,TF-IDF算法仅考虑了文档中词的词频,或者说仅考虑了文档中词的重要程 ...
【技术保护点】
1.一种文本相似度计算方法,其特征在于,包括:基于预设词性权重计算两个文本之间的词性相似度;基于改进的词频逆文本频率TF‑IDF算法计算所述两个文本之间的文字相似度;根据所述词性相似度和所述文字相似度确定所述两个文本之间的综合相似度。
【技术特征摘要】
1.一种文本相似度计算方法,其特征在于,包括:基于预设词性权重计算两个文本之间的词性相似度;基于改进的词频逆文本频率TF-IDF算法计算所述两个文本之间的文字相似度;根据所述词性相似度和所述文字相似度确定所述两个文本之间的综合相似度。2.根据权利要求1所述的方法,其特征在于,所述基于预设词性权重计算两个文本之间的词性相似度包括:按照如下公式计算两个文本之间的词性相似度:其中,Simwordpro(A,B)表示文本A与文本B之间的词性相似度,gi表示文本A中第i个词的词性权重,gi'表示文本B中第i个词的词性权重,n表示文本A中的词与文本B中的词组成的集合中词的总数,LA表示文本A中词的总数,LB表示文本B中词的总数。3.根据权利要求1所述的方法,其特征在于,所述基于改进的词频逆文本频率TF-IDF算法计算所述两个文本之间的文字相似度,包括:按照如下公式计算每个文本中的每个词对应的TF-IDF权重:其中,Wij表示文本i中词j对应的TF-IDF权重,tfij表示词j在文本i中出现的次数,N表示文本集中包含的文本总数,nj表示文本集中包含词j的文本总数,i是文本标识,j是文本中的词的标识;基于所述两个文本中每个词对应的TF-IDF权重计算所述两个文本之间的文字相似度。4.根据权利要求3所述的方法,其特征在于,所述基于所述两个文本中每个词对应的TF-IDF权重计算所述两个文本之间的文字相似度,包括:按照如下公式计算所述两个文本之间的文字相似度:其中,Simtf-idf(A,B)表示文本A与文本B之间的文字相似度,Wai表示文本A中第i个词对应的TF-IDF权重,Wbi表示文本B中第i个词对应的TF-IDF权重,n表示文本A中的词与文本B中的词组成的集合中词的总数。...
【专利技术属性】
技术研发人员:徐乐乐,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。