【技术实现步骤摘要】
一种大数据信息分析方法及系统
[0001]本专利技术涉及数据处理
,具体是涉及一种大数据信息分析方法及系统。
技术介绍
[0002]依托于大数据,短视频得到快速发展,各种精彩夺目的原创视频层出不穷,掀起人们的短视频创作热潮,同时,也会存在很多抄袭和雷同的视频,不仅影响着短视频的创作环境,也影响着原创作者的权益和用户的观感。因此,需要提供一种大数据信息分析方法及系统,旨在解决或者缓解上述问题。
技术实现思路
[0003]针对现有技术存在的不足,本专利技术的目的在于提供一种大数据信息分析方法及系统,以解决或者缓解上述
技术介绍
中存在的问题。
[0004]本专利技术是这样实现的,一种大数据信息分析方法,所述方法包括以下步骤:
[0005]接收用户上传的视频数据,所述视频数据包含音频数据,判断音频数据是否存在音频引用,当存在音频引用时,在置顶评论显示原创作者;当不存在音频引用时,执行下一步骤;
[0006]对音频数据进行语音转文字,形成音频文本文档,根据历史文本文档对音频文本文档进行查重, ...
【技术保护点】
【技术特征摘要】
1.一种大数据信息分析方法,其特征在于,所述方法包括以下步骤:接收用户上传的视频数据,所述视频数据包含音频数据,判断音频数据是否存在音频引用,当存在音频引用时,在置顶评论显示原创作者;当不存在音频引用时,执行下一步骤;对音频数据进行语音转文字,形成音频文本文档,根据历史文本文档对音频文本文档进行查重,当存在某个历史文本文档为引用文档时,在置顶评论显示所述历史文本文档的原创作者;判断视频数据的内容相比原创作者对应的视频数据是否进行了二次创新,当没有时,标记上雷同标签后进行推广发布,所述音频文本文档以历史文本文档的形式进行存储;对标记上雷同标签的视频数据的播放量进行监测,当播放量到达阶梯播放次数时,对原创作者对应的视频数据进行加大推广。2.根据权利要求1所述的大数据信息分析方法,其特征在于,所述根据历史文本文档对音频文本文档进行查重的步骤,具体包括:根据历史文本文档对音频文本文档进行查重,调取出重复率高于设定重复值的历史文本文档;对每个调取的历史文本文档中的重复内容进行筛选,判断重复内容是否为引经据典,当重复内容为引经据典时,将所述重复内容剔除,计算剔除后的重复率;确定剔除后重复率高于设定重复值且重复率最高的历史文本文档为引用文档。3.根据权利要求2所述的大数据信息分析方法,其特征在于,所述判断重复内容是否为引经据典的步骤,具体包括:对每部分重复内容进行检索,确定是否有对应的典籍出处;当有对应的典籍出处时,判定所述重复内容为引经据典;否则,判定所述重复内容没有引经据典。4.根据权利要求1所述的大数据信息分析方法,其特征在于,所述判断视频数据的内容相比原创作者对应的视频数据是否进行了二次创新的步骤,具体包括:判断视频数据的创作形式是否与原创作者对应的视频数据的创作形式相同;当创作形式相同时,判定用户上传的视频数据没有进行二次创新;否则,判定用户上传的视频数据进行了二次创新。5.根据权利要求1所述的大数据信息分析方法,其特征在于,所述方法还包括:定期对每位用户的原创率进行统计,原创率等于无雷同标签的视频数量除以所有发布的视频数量;当原创率大于或者等于设定原创比例时,对最近设定时间内发布的视频数据进行加大推广;当原创率小于设定原创比例时,对最近设定时间内发布的视频数据进行限流,并生成告警信息。6.一种大数据信息分析系统,其特征在于,所述系统包括:音频引用判定模块,用于接收用户上传的视频数据,所述视频数据包含音频数据,判...
【专利技术属性】
技术研发人员:赵贝尔,袁高明,崔晓茹,何颖,
申请(专利权)人:北京无极慧通科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。