弹幕相似度计算方法、存储介质、设备及系统技术方案

技术编号：21299388 阅读：24 留言：0更新日期：2019-06-12 07:52

本发明专利技术公开了一种弹幕相似度计算方法、存储介质、设备及系统，涉及大数据处理领域，该方法包括：对弹幕A和弹幕B的文本进行分词，并将分词后得到的每个词项通过word2vec进行向量化表示；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的匹配度，以及计算弹幕B的每个词项与弹幕A的匹配度；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的共现度，以及计算弹幕B的每个词项与弹幕A的共现度；计算得到的所有匹配度之和除以所有共现度之和，得到弹幕A和弹幕B的相似度。本发明专利技术能够实现对弹幕间相似度的精确计算。

Calculating Method, Storage Media, Equipment and System of Ballistic Curtain Similarity

The invention discloses a method for calculating the similarity of bullet curtain, a storage medium, a device and a system, which relates to the field of large data processing. The method includes: partitioning the text of bullet curtain A and B, vectorizing each word item obtained after partitioning through word 2vec, calculating the matching degree between each word of bullet curtain A and bullet curtain B based on vectorization, and calculating Calculate the matching degree between each term of the bomb curtain B and the bomb curtain A; Calculate the co-occurrence degree of each term of the bomb curtain A and the co-occurrence degree of each term of the bomb curtain B and the bomb curtain A based on the vectorized expression of the term; Calculate the sum of all matching degrees divided by the sum of all co-occurrence degrees, and obtain the similarity degree between the bomb curtain A and the bomb curtain B. The invention can realize the accurate calculation of the similarity between projectile curtains.

全部详细技术资料下载

【技术实现步骤摘要】
弹幕相似度计算方法、存储介质、设备及系统
本专利技术涉及大数据处理领域，具体涉及一种弹幕相似度计算方法、存储介质、设备及系统。
技术介绍
随着移动互联网的飞速发展，直播行业也呈现出蓬勃发展之势，越来越多的年轻人喜欢通过观看直播的方式来打发业余时间。用户在观看直播的过程中，会通过发送弹幕文本的方式与主播或其它用户进行互动，但是在某些热门主播的直播间，由于该直播间用户数量较多，导致该直播间的弹幕量非常巨大，若对于用户发送的每一条弹幕均进行展示，便会导致弹幕铺满整个直播画面，为保证用户的观看体验，直播平台会对弹幕文本间的相似度进行计算，若2条弹幕相识度较高，则仅展示2条弹幕中的1条弹幕，现有技术中对于弹幕相似度的计算有余弦相似度、TF-IDF(termfrequency–inversedocumentfrequency，词频-逆文本频率指数)算法等，但这些方法没有考虑词项本身的重要性以及语义层面的相似度对比，遇到同义词和近义词时，相似度计算结果不是很准确。
技术实现思路
针对现有技术中存在的缺陷，本专利技术的目的在于提供一种弹幕相似度计算方法、存储介质、设备及系统，能够实现对弹幕间相似度的精确计算。本专利技术第一方面提供一种弹幕相似度计算方法，包括以下步骤：对弹幕A和弹幕B的文本进行分词，并将分词后得到的每个词项通过word2vec进行向量化表示；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的匹配度，以及计算弹幕B的每个词项与弹幕A的匹配度；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的共现度，以及计算弹幕B的每个词项与弹幕A的共现度；计算得到的所有匹配...

【技术保护点】
1.一种弹幕相似度计算方法，其特征在于，包括以下步骤：对弹幕A和弹幕B的文本进行分词，并将分词后得到的每个词项通过word2vec进行向量化表示；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的匹配度，以及计算弹幕B的每个词项与弹幕A的匹配度；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的共现度，以及计算弹幕B的每个词项与弹幕A的共现度；计算得到的所有匹配度之和除以所有共现度之和，得到弹幕A和弹幕B的相似度。

【技术特征摘要】
1.一种弹幕相似度计算方法，其特征在于，包括以下步骤：对弹幕A和弹幕B的文本进行分词，并将分词后得到的每个词项通过word2vec进行向量化表示；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的匹配度，以及计算弹幕B的每个词项与弹幕A的匹配度；基于向量化表示的词项，计算弹幕A的每个词项与弹幕B的共现度，以及计算弹幕B的每个词项与弹幕A的共现度；计算得到的所有匹配度之和除以所有共现度之和，得到弹幕A和弹幕B的相似度。2.如权利要求1所述的一种弹幕相似度计算方法，其特征在于：所述计算弹幕A的每个词项与弹幕B的匹配度，计算公式为：其中，Simmax(wordAi,B)表示弹幕A中第i个词项与弹幕B的匹配度，表示弹幕A中第i个词项的向量，表示弹幕B中第j个词项的向量，wordBj表示弹幕B中第j个词项，B表示弹幕B的所有词项，表示计算和的余弦相似度。3.如权利要求2所述的一种弹幕相似度计算方法，其特征在于：所述计算弹幕B的每个词项与弹幕A的匹配度，计算公式为：其中，Simmax(wordBi,A)表示弹幕B中第i个词项与弹幕A的匹配度，表示弹幕B中第i个词项的向量，表示弹幕A中第j个词项的向量，wordAj表示弹幕A中第j个词项，A表示弹幕A的所有词项，表示计算和的余弦相似度。4.如权利要求3所述的一种弹幕相似度计算方法，其特征在于：所述弹幕A的每个词项与弹幕B的共现度，计算公式为：其中，simall(wordAi,B)表示弹幕A中第i个词项与弹幕B的共现度。5.如权利要求4所述的一种弹幕相似度计算方法，其特征在于：所述弹幕B的每个词项与弹幕A的共现度，计算公式为：其中，simall(wordBi,A)表示弹幕B中第i个词项与弹幕A的共现度。6.如权利要求5所述的一种弹幕相似度计算方法，其特征在于：所述计算得到的所有匹配度之和除以所有共现度之和，计算公式为：其中，Sim(A,B)表示弹幕A和弹幕B的相似度，α表示弹幕A中词项的总个数，β表示弹...

【专利技术属性】
技术研发人员：徐乐乐，
申请(专利权)人：武汉斗鱼网络科技有限公司，
类型：发明
国别省市：湖北,42

全部详细技术资料下载我是这个专利的主人