弹幕相似度计算方法、存储介质、设备及系统技术方案

技术编号:21299388 阅读:24 留言:0更新日期:2019-06-12 07:52
本发明专利技术公开了一种弹幕相似度计算方法、存储介质、设备及系统,涉及大数据处理领域,该方法包括:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。本发明专利技术能够实现对弹幕间相似度的精确计算。

Calculating Method, Storage Media, Equipment and System of Ballistic Curtain Similarity

The invention discloses a method for calculating the similarity of bullet curtain, a storage medium, a device and a system, which relates to the field of large data processing. The method includes: partitioning the text of bullet curtain A and B, vectorizing each word item obtained after partitioning through word 2vec, calculating the matching degree between each word of bullet curtain A and bullet curtain B based on vectorization, and calculating Calculate the matching degree between each term of the bomb curtain B and the bomb curtain A; Calculate the co-occurrence degree of each term of the bomb curtain A and the co-occurrence degree of each term of the bomb curtain B and the bomb curtain A based on the vectorized expression of the term; Calculate the sum of all matching degrees divided by the sum of all co-occurrence degrees, and obtain the similarity degree between the bomb curtain A and the bomb curtain B. The invention can realize the accurate calculation of the similarity between projectile curtains.

【技术实现步骤摘要】
弹幕相似度计算方法、存储介质、设备及系统
本专利技术涉及大数据处理领域,具体涉及一种弹幕相似度计算方法、存储介质、设备及系统。
技术介绍
随着移动互联网的飞速发展,直播行业也呈现出蓬勃发展之势,越来越多的年轻人喜欢通过观看直播的方式来打发业余时间。用户在观看直播的过程中,会通过发送弹幕文本的方式与主播或其它用户进行互动,但是在某些热门主播的直播间,由于该直播间用户数量较多,导致该直播间的弹幕量非常巨大,若对于用户发送的每一条弹幕均进行展示,便会导致弹幕铺满整个直播画面,为保证用户的观看体验,直播平台会对弹幕文本间的相似度进行计算,若2条弹幕相识度较高,则仅展示2条弹幕中的1条弹幕,现有技术中对于弹幕相似度的计算有余弦相似度、TF-IDF(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)算法等,但这些方法没有考虑词项本身的重要性以及语义层面的相似度对比,遇到同义词和近义词时,相似度计算结果不是很准确。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种弹幕相似度计算方法、存储介质、设备及系统,能够实现对弹幕间相似度的精确计算。本专利技术第一方面提供一种弹幕相似度计算方法,包括以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。结合第一方面,在第一种可能的实现方式中,所述计算弹幕A的每个词项与弹幕B的匹配度,计算公式为:其中,Simmax(wordAi,B)表示弹幕A中第i个词项与弹幕B的匹配度,表示弹幕A中第i个词项的向量,表示弹幕B中第j个词项的向量,wordBj表示弹幕B中第j个词项,B表示弹幕B的所有词项,表示计算和的余弦相似度。结合第一方面第一种可能的实现方式,在第二种可能的实现方式中,所述计算弹幕B的每个词项与弹幕A的匹配度,计算公式为:其中,Simmax(wordBi,A)表示弹幕B中第i个词项与弹幕A的匹配度,表示弹幕B中第i个词项的向量,表示弹幕A中第j个词项的向量,wordAj表示弹幕A中第j个词项,A表示弹幕A的所有词项,表示计算和的余弦相似度。结合第一方面第二种可能的实现方式,在第三种可能的实现方式中,所述弹幕A的每个词项与弹幕B的共现度,计算公式为:其中,simall(wordAi,B)表示弹幕A中第i个词项与弹幕B的共现度。结合第一方面第三种可能的实现方式,在第四种可能的实现方式中,所述弹幕B的每个词项与弹幕A的共现度,计算公式为:其中,simall(wordBi,A)表示弹幕B中第i个词项与弹幕A的共现度。结合第一方面第四种可能的实现方式,在第五种可能的实现方式中,所述计算得到的所有匹配度之和除以所有共现度之和,计算公式为:其中,Sim(A,B)表示弹幕A和弹幕B的相似度,α表示弹幕A中词项的总个数,β表示弹幕B中词项的总个数。结合第一方面,在第六种可能的实现方式中,当弹幕A和弹幕B的相似度大于设定阈值时,选取弹幕A或弹幕B中的任一条弹幕在直播画面上展示,另一条未被选取的弹幕在直播画面上不作展示。本专利技术第二方面提供一种存储介质,该存储介质上存储有计算机程序,,所述计算机程序被处理器执行时实现以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。本专利技术第三方面提供一种电子设备,所述电子设备包括:分词单元,其用于对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;第一计算单元,其用于基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;第二计算单元,其用于基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;相似度计算单元,其用于计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。本专利技术第四方面提供一种弹幕相似度计算系统,包括:分词模块,其用于对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;第一计算模块,其用于基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;第二计算模块,其用于基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;相似度计算模块,其用于计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。与现有技术相比,本专利技术的优点在于:通过对待计算相似度的两弹幕进行分词,基于分词后得到的词项,进行弹幕间匹配度和共现度的计算,最后将计算得到的所有匹配度之和除以所有共现度之和,得到的值作为两弹幕间的相似度,从语义层面进行弹幕文本间相似度的计算,有效保证相似度计算的准确性。附图说明图1为本专利技术实施例中一种弹幕相似度计算方法的流程图;图2为本专利技术实施例中一种电子设备的结构示意图。具体实施方式本专利技术实施例提供一种弹幕相似度计算方法,基于弹幕文本词项间的匹配度和共现度,实现弹幕间相似度的精确计算。本专利技术实施例还相应地提供了一种弹幕相似度计算系统。参见图1所示,本专利技术实施例提供一种弹幕相似度计算方法的一实施例包括:S1:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;本专利技术实施例中对于弹幕文本的分词可以使用现有技术中的常用分词软件,如jieba等。本专利技术实施例中,对于弹幕进行分词得到词项,举例说明如下,假设弹幕A的文本为“主播操作厉害”,弹幕B的文本为“这个主播很厉害”,将弹幕A分词后,为“主播”、“操作”和“厉害”三个词项,弹幕B分词后,为“这个”、“主播”、“很”和“厉害”四个词项。本专利技术实施例中,word2vec是用来产生词向量的相关模型,通常为浅而双层的神经网络,用来训练以重新建构语言学之词文本,通过训练,word2vec模型可用来映射每个词到一个向量。由于本专利技术实施例应用于直播领域,故可以获取直播平台直播间的历史弹幕作为语料库,进行分词并去除停用词,然后对word2vec进行训练,得到word2vec的词向量模型,使word2vec具有对词项进行向量化表示的能力。S2:基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度。本专利技术实施例中,对弹幕A进行分词后,可以得到至少一个词项,计算得到的每个词项与弹幕B的匹配度,相似的,对弹幕B进行分词后,可以得到至少一个词项,计算得到的本文档来自技高网...

【技术保护点】
1.一种弹幕相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。

【技术特征摘要】
1.一种弹幕相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。2.如权利要求1所述的一种弹幕相似度计算方法,其特征在于:所述计算弹幕A的每个词项与弹幕B的匹配度,计算公式为:其中,Simmax(wordAi,B)表示弹幕A中第i个词项与弹幕B的匹配度,表示弹幕A中第i个词项的向量,表示弹幕B中第j个词项的向量,wordBj表示弹幕B中第j个词项,B表示弹幕B的所有词项,表示计算和的余弦相似度。3.如权利要求2所述的一种弹幕相似度计算方法,其特征在于:所述计算弹幕B的每个词项与弹幕A的匹配度,计算公式为:其中,Simmax(wordBi,A)表示弹幕B中第i个词项与弹幕A的匹配度,表示弹幕B中第i个词项的向量,表示弹幕A中第j个词项的向量,wordAj表示弹幕A中第j个词项,A表示弹幕A的所有词项,表示计算和的余弦相似度。4.如权利要求3所述的一种弹幕相似度计算方法,其特征在于:所述弹幕A的每个词项与弹幕B的共现度,计算公式为:其中,simall(wordAi,B)表示弹幕A中第i个词项与弹幕B的共现度。5.如权利要求4所述的一种弹幕相似度计算方法,其特征在于:所述弹幕B的每个词项与弹幕A的共现度,计算公式为:其中,simall(wordBi,A)表示弹幕B中第i个词项与弹幕A的共现度。6.如权利要求5所述的一种弹幕相似度计算方法,其特征在于:所述计算得到的所有匹配度之和除以所有共现度之和,计算公式为:其中,Sim(A,B)表示弹幕A和弹幕B的相似度,α表示弹幕A中词项的总个数,β表示弹...

【专利技术属性】
技术研发人员:徐乐乐
申请(专利权)人:武汉斗鱼网络科技有限公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1