The invention discloses a method for calculating the similarity of bullet curtain text, a storage medium, a device and a system, which relates to the field of large data processing, including: segmentation of the text of bullet curtain A and B, obtaining the same terms of bullet curtain A and B, and the minimum word frequency of the same terms; calculating the proportion of the same terms in the text of bullet curtain A and B; and calculating the word frequency based on the same terms; Text similarity of bomb curtain A and B; mapping the text of bomb curtain A and B to space vector through Word2vec model, then calculating the text similarity of bomb curtain A and B in text space based on cosine similarity algorithm; calculating the text similarity of bomb curtain A and B based on the same word frequency and text similarity in text space by weight calculation, obtaining bomb curtain A and bomb curtain B. The final similarity of Act B. The invention can effectively ensure the accuracy of calculating the similarity between the bullet curtain texts.
【技术实现步骤摘要】
弹幕文本相似度计算方法、存储介质、设备及系统
本专利技术涉及大数据处理领域,具体涉及一种弹幕文本相似度计算方法、存储介质、设备及系统。
技术介绍
随着移动互联网的飞速发展,直播行业也呈现出蓬勃发展之势,越来越多的年轻人喜欢通过观看直播的方式来打发业余时间。用户在观看直播的过程中,会通过发送弹幕文本的方式与主播或其它用户进行互动,但是在某些热门主播的直播间,由于该直播间用户数量较多,导致该直播间的弹幕量非常巨大,若对于用户发送的每一条弹幕均进行展示,便会导致弹幕铺满整个直播画面,为保证用户的观看体验,直播平台会对弹幕文本间的相似度进行计算,若2条弹幕相识度较高,则仅展示2条弹幕中的1条弹幕,现有技术中对于弹幕相似度的计算有余弦相似度、欧式距离算法等,但这些算法通常只考虑了2条弹幕在空间中的距离,导致弹幕间相似度的计算不够准确。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种弹幕文本相似度计算方法、存储介质、设备及系统,能够有效保证计算得到弹幕文本间相似度的准确性。本专利技术第一方面提供一种弹幕文本相似度计算方法,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似 ...
【技术保护点】
1.一种弹幕文本相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。
【技术特征摘要】
1.一种弹幕文本相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。2.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:所述计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。3.如权利要求2所述的一种弹幕文本相似度计算方法,其特征在于:所述计算基于相同词项词频的弹幕A和弹幕B的文本相似度,计算公式为:其中,Simtf(A,B)表示基于相同词项词频的弹幕A和弹幕B的文本相似度。4.如权利要求3所述的一种弹幕文本相似度计算方法,其特征在于:所述基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度,计算公式为:其中,simword2vec(A,B)表示弹幕A和弹幕B在文本空间的相似度,表示弹幕A通过word2vec模型映射后的空间向量,表示弹幕B通过word2vec模型映射后的空间向量,p表示的维数。5.如权利要求4所述的一种弹幕文本相似度计算方法,其特征在于:所述对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度,计算公式为:Sim(A,B)=λ*Simtf(A,B)+(1-λ)Simword2vec(A,B)其中,Sim(A,B)表示弹幕A和弹幕B最终相似度,λ为调整系数,取值范围为[0.6,0.8]。6.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:当弹幕A和弹幕B的最终相似度大于设定阈值时,选取弹幕A或弹幕B中的任一条弹幕在直播画面上展示,另一条未被选取的弹幕在直播画面上不作展示。7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现以下步骤...
【专利技术属性】
技术研发人员:徐乐乐,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。