弹幕文本相似度计算方法、存储介质、设备及系统技术方案

技术编号:21299434 阅读:50 留言:0更新日期:2019-06-12 07:53
本发明专利技术公开了一种弹幕文本相似度计算方法、存储介质、设备及系统,涉及大数据处理领域,包括:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。本发明专利技术能够有效保证计算得到弹幕文本间相似度的准确性。

Calculating Method, Storage Media, Equipment and System of Ballistic Curtain Text Similarity

The invention discloses a method for calculating the similarity of bullet curtain text, a storage medium, a device and a system, which relates to the field of large data processing, including: segmentation of the text of bullet curtain A and B, obtaining the same terms of bullet curtain A and B, and the minimum word frequency of the same terms; calculating the proportion of the same terms in the text of bullet curtain A and B; and calculating the word frequency based on the same terms; Text similarity of bomb curtain A and B; mapping the text of bomb curtain A and B to space vector through Word2vec model, then calculating the text similarity of bomb curtain A and B in text space based on cosine similarity algorithm; calculating the text similarity of bomb curtain A and B based on the same word frequency and text similarity in text space by weight calculation, obtaining bomb curtain A and bomb curtain B. The final similarity of Act B. The invention can effectively ensure the accuracy of calculating the similarity between the bullet curtain texts.

【技术实现步骤摘要】
弹幕文本相似度计算方法、存储介质、设备及系统
本专利技术涉及大数据处理领域,具体涉及一种弹幕文本相似度计算方法、存储介质、设备及系统。
技术介绍
随着移动互联网的飞速发展,直播行业也呈现出蓬勃发展之势,越来越多的年轻人喜欢通过观看直播的方式来打发业余时间。用户在观看直播的过程中,会通过发送弹幕文本的方式与主播或其它用户进行互动,但是在某些热门主播的直播间,由于该直播间用户数量较多,导致该直播间的弹幕量非常巨大,若对于用户发送的每一条弹幕均进行展示,便会导致弹幕铺满整个直播画面,为保证用户的观看体验,直播平台会对弹幕文本间的相似度进行计算,若2条弹幕相识度较高,则仅展示2条弹幕中的1条弹幕,现有技术中对于弹幕相似度的计算有余弦相似度、欧式距离算法等,但这些算法通常只考虑了2条弹幕在空间中的距离,导致弹幕间相似度的计算不够准确。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种弹幕文本相似度计算方法、存储介质、设备及系统,能够有效保证计算得到弹幕文本间相似度的准确性。本专利技术第一方面提供一种弹幕文本相似度计算方法,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。结合第一方面,在第一种可能的实现方式中,所述计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述计算基于相同词项词频的弹幕A和弹幕B的文本相似度,计算公式为:其中,Simtf(A,B)表示基于相同词项词频的弹幕A和弹幕B的文本相似度。结合第一方面的第二种可能的实现方式,在第三种可能的实现方式中,所述基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度,计算公式为:其中,simword2vec(A,B)表示弹幕A和弹幕B在文本空间的相似度,表示弹幕A通过word2vec模型映射后的空间向量,表示弹幕B通过word2vec模型映射后的空间向量,p表示的维数。结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,所述对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度,计算公式为:Sim(A,B)=λ*Simtf(A,B)+(1-λ)Simword2vec(A,B)其中,Sim(A,B)表示弹幕A和弹幕B最终相似度,λ为调整系数,取值范围为[0.6,0.8]。结合第一方面的第三种可能的实现方式,在第五种可能的实现方式中,当弹幕A和弹幕B的最终相似度大于设定阈值时,选取弹幕A或弹幕B中的任一条弹幕在直播画面上展示,另一条未被选取的弹幕在直播画面上不作展示。本专利技术第二方面提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。本专利技术第三方面提供一种电子设备,所述电子设备包括:分词单元,其用于选取待展示弹幕弹幕A和弹幕B,对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;比例计算单元,其用于计算相同词项在弹幕A和弹幕B文本中的所占比例;第一文本相似度计算单元,其用于计算基于相同词项词频的弹幕A和弹幕B的文本相似度;第二文本相似度计算单元,其用于将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;最终相似度计算单元,其用于对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。本专利技术第四方面提供一种弹幕文本相似度计算系统,包括:分词模块,其用于选取待展示弹幕弹幕A和弹幕B,对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;比例计算模块,其用于计算相同词项在弹幕A和弹幕B文本中的所占比例;第一文本相似度计算模块,其用于计算基于相同词项词频的弹幕A和弹幕B的文本相似度;第二文本相似度计算模块,其用于将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;最终相似度计算模块,其用于对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。结合第四方面,在第一种可能的实现方式中,所述比例计算模块计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。与现有技术相比,本专利技术的优点在于:在进行弹幕文本间相似度计算时,首先对弹幕文本进行分词,然后基于分词得到弹幕间的相同词项,以及相同词项的最小词频,根据相同词项和最小词频,计算基于相同词项词频的弹幕间的文本相似度,以及在文本空间的文本相似度,最后对基于相同词项词频的文本相似度和在文本空间的文本相似度分别赋予权重进行计算,计算后得到的值作为弹幕文本间的最终相似度,在计算文本相识度时,进行进行相同词项的考虑,有效保证计算得到弹幕文本间相似度的准确性。附图说明图1为本专利技术实施例中一种弹幕文本相似度计算方法的流程图;图2为本专利技术实施例中一种电子设备的结构示意图。具体实施方式本专利技术实施例提供了一种弹幕文本相似度计算方法,基于弹幕文本的短语词频进行相似度计算,有效保证弹幕间相似度计算的准确性。本专利技术实施例还相应地提供了存储介质、电子设备和弹幕文本相似度计算系统。以下结合附本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1所示,本专利技术实施例提供的一种弹幕文本相似度计算方法的一实施例包括:S1:对弹幕A和弹幕B的文本进行分词,得出弹幕A本文档来自技高网...

【技术保护点】
1.一种弹幕文本相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。

【技术特征摘要】
1.一种弹幕文本相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,得出弹幕A和弹幕B的相同词项,以及相同词项的最小词频;计算相同词项在弹幕A和弹幕B文本中的所占比例;计算基于相同词项词频的弹幕A和弹幕B的文本相似度;将弹幕A和弹幕B的文本通过word2vec模型映射为空间向量,然后基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度;对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度。2.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:所述计算相同词项在弹幕A和弹幕B文本中的所占比例,计算公式为:其中,P(A,B)表示相同词项在弹幕A和弹幕B文本中的所占比例,wordi表示相同词项,ni表示相同词项的最小词频,m表示相同词项的个数,LA表示弹幕A的文本长度,LB表示弹幕B的文本长度。3.如权利要求2所述的一种弹幕文本相似度计算方法,其特征在于:所述计算基于相同词项词频的弹幕A和弹幕B的文本相似度,计算公式为:其中,Simtf(A,B)表示基于相同词项词频的弹幕A和弹幕B的文本相似度。4.如权利要求3所述的一种弹幕文本相似度计算方法,其特征在于:所述基于余弦相似度算法计算弹幕A和弹幕B在文本空间的文本相似度,计算公式为:其中,simword2vec(A,B)表示弹幕A和弹幕B在文本空间的相似度,表示弹幕A通过word2vec模型映射后的空间向量,表示弹幕B通过word2vec模型映射后的空间向量,p表示的维数。5.如权利要求4所述的一种弹幕文本相似度计算方法,其特征在于:所述对弹幕A和弹幕B基于相同词项词频的文本相似度,以及在文本空间的文本相似度进行权重计算,得到弹幕A和弹幕B的最终相似度,计算公式为:Sim(A,B)=λ*Simtf(A,B)+(1-λ)Simword2vec(A,B)其中,Sim(A,B)表示弹幕A和弹幕B最终相似度,λ为调整系数,取值范围为[0.6,0.8]。6.如权利要求1所述的一种弹幕文本相似度计算方法,其特征在于:当弹幕A和弹幕B的最终相似度大于设定阈值时,选取弹幕A或弹幕B中的任一条弹幕在直播画面上展示,另一条未被选取的弹幕在直播画面上不作展示。7.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现以下步骤...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1