一种弹幕关键词提取方法、装置、设备及介质制造方法及图纸

技术编号：28942856 阅读：23 留言：0更新日期：2021-06-18 21:50

本发明专利技术提供一种弹幕关键词提取方法、装置、电子设备及存储介质，方法包括：基于TTF‑ICDF模型进行弹幕关键词提取和基于DWTextRank模型进行关键词提取。TTF‑ICDF为：构建三元组表示词特征；获得词频；获得逆向字符文档频率；TTF‑ICDF模型进行关键词提取。DWTextRank为：利用词性表过滤视频标题中非关键信息，构建并合并文本集；然后，逐一使用合并文本集词语与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算，结果为DW1；DW1降序排列，提取靠前的关键词形成初始语义关键词集合Yu；最后，将Yu集合中的词语通过公式进行运算，提取出弹幕文本中基于相应主题在语义维度上的关键词。相较于常用的TF‑IDF和TextRank模型本申请的方法提取出的内容更贴近于人工反馈的关键词结果。

全部详细技术资料下载

【技术实现步骤摘要】
一种弹幕关键词提取方法、装置、设备及介质
本专利技术涉及数据处理
，尤其涉及一种弹幕关键词提取方法、装置、设备及介质。
技术介绍
互联网技术的发展使得用户获取信息的途径从阅读传统纸质媒体转向了更及时便捷的网络媒体。近些年，网络视频传播的影响力不断增大。其中，广受年轻人欢迎的B站在2019年的平均活跃用户量达到了1.01亿。不同于传统评论，作为可以在视频播放时进行实时评论的弹幕功能在B站也得到了大量使用。为了更好的服务用户，准确的提取弹幕中所表达的与主题相关的信息就变的格外重要。弹幕文本包含了大量用户对视频的实时反馈，为了使尚未观看视频的用户提前准确把握视频内容，弹幕文本的关键词提取便尤为重要。无监督的关键词提取主要包括3种方法：基于主题模型的关机词提取方法、基于统计特征的关键词提取方法和基于图模型的关键词提取方法。申请人在研究中发现，现有官方提供的视频关键词范围过大，与用户反馈的关键词存在较大偏差。
技术实现思路
申请人在研究时，选取了B站十种不同领域的近千部优质视频对其进行分析，发现B站官方提供的视频关键词范围过大与用户反馈的关键词存在较大偏差。本申请基于传统TF-IDF和TextRank算法，针对在研究中发现的网络视频弹幕信息文本较短、内容稀疏、话题分散、未登陆词较多等问题，提出了一种基于TI-Rank(TermThemeFrequency-InverseCharacterDocumentFrequency-DistanceWordvectorTextRank)的关键词提...

【技术保护点】
1.一种弹幕关键词提取方法，其特征在于，包括：/n第一、基于TTF-ICDF模型进行弹幕关键词提取；/n第二、基于DWTextRank模型进行关键词提取；/n其中，基于TTF-ICDF模型进行弹幕关键词提取的方法为：/n首先构建三元组<w

【技术特征摘要】
1.一种弹幕关键词提取方法，其特征在于，包括：
第一、基于TTF-ICDF模型进行弹幕关键词提取；
第二、基于DWTextRank模型进行关键词提取；
其中，基于TTF-ICDF模型进行弹幕关键词提取的方法为：
首先构建三元组<wi,titj,tipj>表示词特征；
然后获得词频ttfij；
然后，获得逆向字符文档频率ICDF；
最后，基于TTF-ICDF模型进行关键词提取，提取出词频维度上的关键词；
其中，所述wi表示词语i，titj为视频标题关键信息，tipj为titj最接近的视频标题延伸词；其中，基于DWTextRank模型进行关键词提取的方法为：
首先，利用词性表Tibletit过滤标题中非关键信息，构建titj,tipj文本集；
然后合并titj,tipj文本集生成titall文本集；
然后，逐一使用titall中的词语与对与对应弹幕文本中的所有词语基于拼音维度进行编辑距离与词向量的相似度计算，将结果标记为DW1；
然后，将DW1降序排列，提取靠前的关键词形成初始语义关键词集合Yu；
最后，将Yu集合中的词语通过下述公式进行运算，提取出弹幕文本中基于相应主题在语义维度上的关键词。

2.根据权利要求1所述的一种弹幕关键词提取方法，其特征在于：
所述视频关键信息titj为，通过对多个视频类别的视频标题进行综合分析，建立词性表Tibletit；
过滤视频标题中的非关键信息，并将视频标题关键信息标记为titj；
所述视频标题延伸词tipj为，采用word2vec模型对微软亚洲研究院语料库进行训练得到字向量，并利用余弦相似度计算公式计算出与titj所含词语最接近的三个词，并将其标记为视频标题延伸词tipj。

3.根据权利要求2所述的一种弹幕关键词提取方法，其特征在于：获得词频ttfij的方法为：

其中，wi表示词语i，γ为视频标题关键信息所占权重，δ为视频标题延伸词所占权重；
∑knk,j为文件dj中所有词汇的出现次数总和，titij为基于视频标题词性及视频原有标签所构建的数据集中词i在文件dj中出现的次数，tipi,j为通过word2vec模型构建的视频标题延伸词(近义词)数据集的词i在文件dj中出现的次数。

4.根据权利要求3所述的一种弹幕关键词提取方法，其特征在于：获得逆向字符文档频率ICDF的方法为：

其中w为文档中任意词语，w...

【专利技术属性】
技术研发人员：黄改娟，张仰森，何梓源，
申请(专利权)人：北京信息科技大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人