一种弹幕关键词提取方法、装置、设备及介质制造方法及图纸

技术编号:28942856 阅读:23 留言:0更新日期:2021-06-18 21:50
本发明专利技术提供一种弹幕关键词提取方法、装置、电子设备及存储介质,方法包括:基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为:构建三元组表示词特征;获得词频;获得逆向字符文档频率;TTF‑ICDF模型进行关键词提取。DWTextRank为:利用词性表过滤视频标题中非关键信息,构建并合并文本集;然后,逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,结果为DW1;DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;最后,将Yu集合中的词语通过公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

【技术实现步骤摘要】
一种弹幕关键词提取方法、装置、设备及介质
本专利技术涉及数据处理
,尤其涉及一种弹幕关键词提取方法、装置、设备及介质。
技术介绍
互联网技术的发展使得用户获取信息的途径从阅读传统纸质媒体转向了更及时便捷的网络媒体。近些年,网络视频传播的影响力不断增大。其中,广受年轻人欢迎的B站在2019年的平均活跃用户量达到了1.01亿。不同于传统评论,作为可以在视频播放时进行实时评论的弹幕功能在B站也得到了大量使用。为了更好的服务用户,准确的提取弹幕中所表达的与主题相关的信息就变的格外重要。弹幕文本包含了大量用户对视频的实时反馈,为了使尚未观看视频的用户提前准确把握视频内容,弹幕文本的关键词提取便尤为重要。无监督的关键词提取主要包括3种方法:基于主题模型的关机词提取方法、基于统计特征的关键词提取方法和基于图模型的关键词提取方法。申请人在研究中发现,现有官方提供的视频关键词范围过大,与用户反馈的关键词存在较大偏差。
技术实现思路
申请人在研究时,选取了B站十种不同领域的近千部优质视频对其进行分析,发现B站官方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。本申请基于传统TF-IDF和TextRank算法,针对在研究中发现的网络视频弹幕信息文本较短、内容稀疏、话题分散、未登陆词较多等问题,提出了一种基于TI-Rank(TermThemeFrequency-InverseCharacterDocumentFrequency-DistanceWordvectorTextRank)的关键词提取模型及方法。该模型及方法能有效过滤弹幕中的干扰词汇,并基于弹幕文本的词频词义提取出更准确且贴近日常用语的文本关键词。为实现上述目的,本专利技术提供如下技术方案:第一方面,本申请提供一种弹幕关键词提取方法,包括:第一、基于TTF-ICDF模型进行弹幕关键词提取首先构建三元组<wi,titj,tipj>表示词特征。具体的,本申请考虑不同类别视频弹幕的特征以及弹幕与其视频标题及原有标签的关系,构建三元组<wi,titj,tipj>表示词特征。其中,所述wi表示词语i,titj为视频标题关键信息,tipj为titj最接近的视频标题延伸词。本申请通过对多个视频类别的视频标题进行综合分析,建立词性表Tibletit。过滤视频标题中的非关键信息,并将视频标题关键信息标记为titj。具体的,本申请中,通过对B站中新闻、医疗、军事、科技、美食、明星等十个类别视频的视频标题进行综合分析,最终建立词性表Tibletit。进一步找出与视频标题关键信息titj最接近的多个视频标题延伸词tipj。本申请中,采用word2vec模型对微软亚洲研究院语料库(MSR)进行训练得到字向量,并利用余弦相似度计算公式计算出与titj所含词语最接近的三个词,并将其标记为视频标题延伸词tipj。然后获得词频ttfij提取模型。具体的,通过tipj与titj综合考虑视频关键信息对词频统计结果的影响,其分段函数(词频提取模型/TermThemeFrequency)为:其中,wi表示词语i,γ为视频标题关键信息所占权重,δ为视频标题延伸词所占权重。∑knk,j为文件dj中所有词汇的出现次数总和,titij为基于视频标题词性及视频原有标签所构建的数据集中词i在文件dj中出现的次数,tipi,j为通过word2vec模型构建的视频标题延伸词(近义词)数据集的词i在文件dj中出现的次数。然后,获得逆向字符文档频率ICDF。具体的,通过下述方法获得逆向字符文档频率ICDF:其中w为文档中任意词语,wi,j为第j篇文档中位置为i的词语,∑j∑iwi,j表示语料库中所有词语总和,αj,i为某词语在文档j中的个数,∑jαj,i表示语料库中某个词语的总和,js为语料库总文档数,jv为出现词语wi,j的文档数。最后,基于TTF-ICDF模型进行关键词提取,提取出词频维度上的关键词。具体的,基于TTF-ICDF模型进行关键词提取方法如下:其中,γ的权重要大于δ的权重,优选的,γ=3,δ=2。jv值优选的为0.1。第二基于DWTextRank模型进行关键词提取首先,利用词性表Tibletit过滤标题中非关键信息,构建titj,tipj文本集,然后合并titj,tipj文本集生成titall文本集。然后,逐一使用titall中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,将结果标记为DW11。具体的,基于拼音维度进行编辑距离与词向量的相似度计算,方法如下:本申请基于拼音维度计算编辑距离并通过归一化运算文本相似度关系,通过上文提到的词向量模型(word2vec模型对MSR进行训练得到字向量),综合计算出文本词语相似度,具体的,Sim=Simpin(si,sj)+Vec(a,b)其中,pina,b(i,j)为字符串a,b转化为拼音形式。Simpin(si,sj)为拼音形式编辑距离计算后归一化的结果。lmax是si与sj中拼音字符串的最大长度。Vec(a,b)表示词与词之间的相似度。Sim表示词语总相似度。Max(i,j)为,选取出i,j中最大的。Min(i,j)为,选取出i,j中最小的。然后,将DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu。优选前50个关键词形成初始语义关键词集合Yu。最后,将Yu集合中的词语通过下述公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。其中,d为阻尼系数(取值为0~1)代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。本申请使用DWTextRank算法计算各节点得分时,需赋予节点任意初始值并通过递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时则称其为收敛,本申请的极限值取为0.0001。优选的,还包括对弹幕文本进行数据预处理的过程。本申请采用HanLP系统对文本进行数据预处理操作。首先,对文本进行分词并剔除单字词。其次,去除停用词并依据词性对文本内容进行过滤。通过上述第一和第二,完成弹幕关键词的提取,获得词频和语义维度上的关键词提取。第二方面,本专利技术实施例提供了一种弹幕关键词提取装置,包括:TTF-ICDF模型弹幕关键词提取模块,用以基于TTF-ICDF模型进行弹幕关键词提取,获得词频维度的关键词;以及基于DWTextRank模型关键词提取模块,获得语义维度的关键词。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的弹幕关键词提取方法。第四方面,本专利技术实施例提供了一种包含计算机可执行指令本文档来自技高网...

【技术保护点】
1.一种弹幕关键词提取方法,其特征在于,包括:/n第一、基于TTF-ICDF模型进行弹幕关键词提取;/n第二、基于DWTextRank模型进行关键词提取;/n其中,基于TTF-ICDF模型进行弹幕关键词提取的方法为:/n首先构建三元组<w

【技术特征摘要】
1.一种弹幕关键词提取方法,其特征在于,包括:
第一、基于TTF-ICDF模型进行弹幕关键词提取;
第二、基于DWTextRank模型进行关键词提取;
其中,基于TTF-ICDF模型进行弹幕关键词提取的方法为:
首先构建三元组<wi,titj,tipj>表示词特征;
然后获得词频ttfij;
然后,获得逆向字符文档频率ICDF;
最后,基于TTF-ICDF模型进行关键词提取,提取出词频维度上的关键词;
其中,所述wi表示词语i,titj为视频标题关键信息,tipj为titj最接近的视频标题延伸词;其中,基于DWTextRank模型进行关键词提取的方法为:
首先,利用词性表Tibletit过滤标题中非关键信息,构建titj,tipj文本集;
然后合并titj,tipj文本集生成titall文本集;
然后,逐一使用titall中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算,将结果标记为DW1;
然后,将DW1降序排列,提取靠前的关键词形成初始语义关键词集合Yu;
最后,将Yu集合中的词语通过下述公式进行运算,提取出弹幕文本中基于相应主题在语义维度上的关键词。


2.根据权利要求1所述的一种弹幕关键词提取方法,其特征在于:
所述视频关键信息titj为,通过对多个视频类别的视频标题进行综合分析,建立词性表Tibletit;
过滤视频标题中的非关键信息,并将视频标题关键信息标记为titj;
所述视频标题延伸词tipj为,采用word2vec模型对微软亚洲研究院语料库进行训练得到字向量,并利用余弦相似度计算公式计算出与titj所含词语最接近的三个词,并将其标记为视频标题延伸词tipj。


3.根据权利要求2所述的一种弹幕关键词提取方法,其特征在于:获得词频ttfij的方法为:



其中,wi表示词语i,γ为视频标题关键信息所占权重,δ为视频标题延伸词所占权重;
∑knk,j为文件dj中所有词汇的出现次数总和,titij为基于视频标题词性及视频原有标签所构建的数据集中词i在文件dj中出现的次数,tipi,j为通过word2vec模型构建的视频标题延伸词(近义词)数据集的词i在文件dj中出现的次数。


4.根据权利要求3所述的一种弹幕关键词提取方法,其特征在于:获得逆向字符文档频率ICDF的方法为:



其中w为文档中任意词语,w...

【专利技术属性】
技术研发人员:黄改娟张仰森何梓源
申请(专利权)人:北京信息科技大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1