The invention discloses a method for calculating the similarity of bullet curtain, a storage medium, a device and a system, which relates to the field of large data processing. The method includes: partitioning the text of bullet curtain A and B, vectorizing each word item obtained after partitioning through word 2vec, calculating the matching degree between each word of bullet curtain A and bullet curtain B based on vectorization, and calculating Calculate the matching degree between each term of the bomb curtain B and the bomb curtain A; Calculate the co-occurrence degree of each term of the bomb curtain A and the co-occurrence degree of each term of the bomb curtain B and the bomb curtain A based on the vectorized expression of the term; Calculate the sum of all matching degrees divided by the sum of all co-occurrence degrees, and obtain the similarity degree between the bomb curtain A and the bomb curtain B. The invention can realize the accurate calculation of the similarity between projectile curtains.
【技术实现步骤摘要】
弹幕相似度计算方法、存储介质、设备及系统
本专利技术涉及大数据处理领域,具体涉及一种弹幕相似度计算方法、存储介质、设备及系统。
技术介绍
随着移动互联网的飞速发展,直播行业也呈现出蓬勃发展之势,越来越多的年轻人喜欢通过观看直播的方式来打发业余时间。用户在观看直播的过程中,会通过发送弹幕文本的方式与主播或其它用户进行互动,但是在某些热门主播的直播间,由于该直播间用户数量较多,导致该直播间的弹幕量非常巨大,若对于用户发送的每一条弹幕均进行展示,便会导致弹幕铺满整个直播画面,为保证用户的观看体验,直播平台会对弹幕文本间的相似度进行计算,若2条弹幕相识度较高,则仅展示2条弹幕中的1条弹幕,现有技术中对于弹幕相似度的计算有余弦相似度、TF-IDF(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)算法等,但这些方法没有考虑词项本身的重要性以及语义层面的相似度对比,遇到同义词和近义词时,相似度计算结果不是很准确。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种弹幕相似度计算方法、存储介质、设备及系统,能够实现对弹幕间相似度的精确计算。本专利技术第一方面提供一种弹幕相似度计算方法,包括以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配 ...
【技术保护点】
1.一种弹幕相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。
【技术特征摘要】
1.一种弹幕相似度计算方法,其特征在于,包括以下步骤:对弹幕A和弹幕B的文本进行分词,并将分词后得到的每个词项通过word2vec进行向量化表示;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的匹配度,以及计算弹幕B的每个词项与弹幕A的匹配度;基于向量化表示的词项,计算弹幕A的每个词项与弹幕B的共现度,以及计算弹幕B的每个词项与弹幕A的共现度;计算得到的所有匹配度之和除以所有共现度之和,得到弹幕A和弹幕B的相似度。2.如权利要求1所述的一种弹幕相似度计算方法,其特征在于:所述计算弹幕A的每个词项与弹幕B的匹配度,计算公式为:其中,Simmax(wordAi,B)表示弹幕A中第i个词项与弹幕B的匹配度,表示弹幕A中第i个词项的向量,表示弹幕B中第j个词项的向量,wordBj表示弹幕B中第j个词项,B表示弹幕B的所有词项,表示计算和的余弦相似度。3.如权利要求2所述的一种弹幕相似度计算方法,其特征在于:所述计算弹幕B的每个词项与弹幕A的匹配度,计算公式为:其中,Simmax(wordBi,A)表示弹幕B中第i个词项与弹幕A的匹配度,表示弹幕B中第i个词项的向量,表示弹幕A中第j个词项的向量,wordAj表示弹幕A中第j个词项,A表示弹幕A的所有词项,表示计算和的余弦相似度。4.如权利要求3所述的一种弹幕相似度计算方法,其特征在于:所述弹幕A的每个词项与弹幕B的共现度,计算公式为:其中,simall(wordAi,B)表示弹幕A中第i个词项与弹幕B的共现度。5.如权利要求4所述的一种弹幕相似度计算方法,其特征在于:所述弹幕B的每个词项与弹幕A的共现度,计算公式为:其中,simall(wordBi,A)表示弹幕B中第i个词项与弹幕A的共现度。6.如权利要求5所述的一种弹幕相似度计算方法,其特征在于:所述计算得到的所有匹配度之和除以所有共现度之和,计算公式为:其中,Sim(A,B)表示弹幕A和弹幕B的相似度,α表示弹幕A中词项的总个数,β表示弹...
【专利技术属性】
技术研发人员:徐乐乐,
申请(专利权)人:武汉斗鱼网络科技有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。