一种视频和弹幕相结合的情感分析及可视化方法技术

技术编号：21630494 阅读：78 留言：0更新日期：2019-07-17 11:35

本发明专利技术提供一种视频和弹幕相结合的情感分析及可视化方法，属于自然语言处理和图像处理领域。该方法首先利用爬虫爬取视频和弹幕数据；然后对爬取的数据进行预处理；随后训练Faster R‑CNN模型，识别物体并标注情感值，之后匹配情感词、程度副词、颜文字、否定词、计算弹幕情感值，最后结合视频物体情感值、弹幕情感值计算“情感值(S(t))‑时间(t)”的关系趋势图。本方法适用于各类主题的网络视频弹幕，可用于分析整体或局部不同细粒度的内容情感取向，得出整个视频的情感曲线图。对于网络视频弹幕内容结构多样、符号复杂难处理的问题，本发明专利技术还提出了一种网络视频弹幕规范化处理方法。

An Emotional Analysis and Visualization Method Combining Video and Barrage

全部详细技术资料下载

【技术实现步骤摘要】
一种视频和弹幕相结合的情感分析及可视化方法
本专利技术属于自然语言处理和图像处理领域，尤其涉及一种视频和弹幕相结合的情感分析及可视化方法。该方法可以有效地对网络视频弹幕的评论信息进行收集、处理和分析，实现弹幕评论信息的情感分析，通过可视化处理将分析结果展现出来，从而作为视频质量评估、商业合作推广、内容个性推荐的参考依据。
技术介绍
弹幕一词最早起源于军事用语，本意指集中炮弹射击过于密集就像幕布一样，故为弹幕。弹幕视频迎合了ACG(动画、漫画、游戏的总称)文化，也满足了用户互动、娱乐和社交的需求。而现在，弹幕已不是二次元文化的专属，当下几乎所有视频网站、软件以及直播平台等都引入了弹幕功能，其吐槽的视频类型也不再以ACG(AnimationComicGame，是动画、漫画、游戏的总称)为主，“边看边吐槽”“看其他用户的吐槽”已经成为观众在观看视频、直播、电视剧时的“新乐趣”“新常态”。弹幕评论数据包含评论文本及其对应的视频时间点信息，因此与一般的评论数据相比，弹幕评论数据能更准确、具体地反映出用户在观看视频时的即时情感和褒贬评价。这些情感和评价信息可以为其他用户在选择视频时提供参考。目前针对网络视频弹幕的研究多集中在文化传播领域。针对弹幕评论数据的挖掘和实际应用还不常见，尤其是在情感分析领域。这些情感信息可以为用户在选择视频时提供参考，满足更多元、个性化的视频检索需求。综上所述，情感分析在视频评论领域具备一定的应用需求，弹幕评论数据是很有价值的情感分析数据来源，为了更好的呈现分析结果，还可对弹幕评论数据做可视化处理。
技术实现思路
本专利技术针对现有技术中对网络视...

【技术保护点】
1.一种视频和弹幕相结合的情感分析及可视化方法，其特征在于，具体步骤如下：步骤1，使用爬虫获取网络视频和弹幕数据，爬取的数据包括弹幕发送时间、弹幕文本内容和弹幕视频文件，弹幕发送时间和弹幕文本内容以表格的形式存储，每个表项以“时间‑内容”为存储结构；视频文件进行抽帧，保存为离散的图片序列；步骤2，对爬取的数据进行预处理，具体过程为：步骤2.1，采用统计词频的方法建立弹幕用语词典，记录并保留在弹幕环境下具有特殊意义的文本字符；爬取弹幕视频网站各大主题分区播放量前十的视频弹幕数据，建立弹幕语料库，使用NLTK(Natural Language Toolkit，自然语言处理工具包)统计词频，将词频大于阈值α的文本字符加入词典，依据弹幕用语词典，去除步骤1表格中不包含于弹幕用语词典内的数据；步骤2.2，利用DFA识别异形文本并将其转换成简体汉字；首先构建异形词库，将单个字词与其不同种类的异形文本构建成一对多映射关系；然后根据映射关系构建NFA，利用子集法确定化NFA得到DFA，消除多余状态化简DFA使其最小化；最后，将步骤1表格内弹幕文本作为输入，并用转化后的简体字代替输入数据中的异形文本；该...

【技术特征摘要】
1.一种视频和弹幕相结合的情感分析及可视化方法，其特征在于，具体步骤如下：步骤1，使用爬虫获取网络视频和弹幕数据，爬取的数据包括弹幕发送时间、弹幕文本内容和弹幕视频文件，弹幕发送时间和弹幕文本内容以表格的形式存储，每个表项以“时间-内容”为存储结构；视频文件进行抽帧，保存为离散的图片序列；步骤2，对爬取的数据进行预处理，具体过程为：步骤2.1，采用统计词频的方法建立弹幕用语词典，记录并保留在弹幕环境下具有特殊意义的文本字符；爬取弹幕视频网站各大主题分区播放量前十的视频弹幕数据，建立弹幕语料库，使用NLTK(NaturalLanguageToolkit，自然语言处理工具包)统计词频，将词频大于阈值α的文本字符加入词典，依据弹幕用语词典，去除步骤1表格中不包含于弹幕用语词典内的数据；步骤2.2，利用DFA识别异形文本并将其转换成简体汉字；首先构建异形词库，将单个字词与其不同种类的异形文本构建成一对多映射关系；然后根据映射关系构建NFA，利用子集法确定化NFA得到DFA，消除多余状态化简DFA使其最小化；最后，将步骤1表格内弹幕文本作为输入，并用转化后的简体字代替输入数据中的异形文本；该步得到的规范化的弹幕序列为{T1，T2，...，Ti，...，Tm}，m为弹幕总数，Ti表示一行“时间-内容”表项；步骤2.3，提取步骤1中爬取的视频文件的关键帧，将抽取的关键帧按时间先后顺序排列，组成离散的图片序列{I1，I2，...，Ii，...，Ik}，k为抽帧总数，Ii表示一帧关键帧；步骤3，爬取弹幕视频文件，剥离音频文件，仅保留视频数据，采取抽帧法得到图片训练集；训练基于FasterR-CNN的物体识别模型，识别视频中的物体，根据物体的实际情感寓意构建情感权重模型；步骤3.1，单独训练RPN网络，选用ImageNet的模型作为预训练模型，初始化RPN网络，采用端到端的方式来调整参数；步骤3.2，单独训练检测网络FastR-CNN，训练所需proposals来自步骤3.1的RPN网络层，该步骤中模型初始化采用ImageNet模型；步骤3.3，用步骤3.2的FastR-CNN的参数来初始化RPN模型，训练时候固定卷积层参数，只调整属于RPN网络层的参数；步骤3.4，保持共享的卷积层固定，用步骤3.3调整后的RPN网络层输出的proposals作为输入，微调FastR-CNN余下的参数，得到可用的神经网络；步骤3.5，对识别出的所有物体进行情感标注，分别赋一权值ξ，该权值表示该物体在某一视频帧中的主观情感取向，即情感值，其中ξ取值为-1、0、1，...

【专利技术属性】
技术研发人员：王宇晨，王晨妮，张超，刘蓝静，孙钜晖，宋威，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人