舆情获取和词粘度模型训练方法及设备、服务器和介质技术

技术编号:26650716 阅读:25 留言:0更新日期:2020-12-09 00:50
本公开提供一种舆情获取和词粘度模型训练方法及设备、服务器和介质,涉及人工智能技术领域,具体涉及图像识别、自然语言处理,可用于云平台。一种视频舆情获取方法,包括:接收舆情获取请求,其中所述舆情获取请求包括所要获取的舆情关键词;将所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,识别结果是对所述视频数据进行预定义内容识别获得的,预定内容识别包括文本识别和图像识别;以及确定经匹配得到的视频数据作为结果视频数据。

【技术实现步骤摘要】
舆情获取和词粘度模型训练方法及设备、服务器和介质
本公开涉及人工智能
,具体涉及图像识别、自然语言处理,特别涉及一种舆情获取和词粘度模型训练方法及设备、服务器和介质。
技术介绍
目前的舆情监控系统主要是从各媒体网站、社交平台、移动端采集文本类舆情信息。但随着技术的发展,越来越多的舆情信息采用富媒体的方式发布和传播,如视频。现有的舆情产品对视频数据的识别也是基于其周边文本如视频标题、视频描述等进行识别,以根据用户输入的关键词与识别信息进行匹配并召回,缺少对视频内容本身的理解。而且,现有的舆情产品虽然可以实现文本类型的识别和匹配,但其文本类型的识别和匹配一般较简单,容易出现描述偏差;而且对视频数据的信息挖掘不够充分,可能导致最终的舆情预测精度不够准确,无法对视频中提及或展示的内容进行召回,导致系统的召回率低。在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。本文档来自技高网...

【技术保护点】
1.一种视频舆情获取方法,包括:/n接收舆情获取请求,其中所述舆情获取请求包括所要获取的舆情关键词;/n将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,所述识别结果是对所述视频数据进行预定义内容识别获得的,所述预定内容识别包括文本识别和图像识别;以及/n确定经匹配得到的视频数据作为结果视频数据。/n

【技术特征摘要】
1.一种视频舆情获取方法,包括:
接收舆情获取请求,其中所述舆情获取请求包括所要获取的舆情关键词;
将所述所要获取的舆情关键词与包含识别结果的视频数据进行匹配,其中,所述识别结果是对所述视频数据进行预定义内容识别获得的,所述预定内容识别包括文本识别和图像识别;以及
确定经匹配得到的视频数据作为结果视频数据。


2.如权利要求1所述的方法,其中,对所述视频数据进行预定义内容识别包括:
定时从视频源获取源视频数据;
根据预定义条件对所获取的源视频数据进行过滤;以及
将所述过滤后的源视频数据转码为预定义格式,以用于预定义内容识别。


3.如权利要求2所述的方法,其中,所述预定义条件包括以下中的一个或多个:视频时长、视频类别、发布时间。


4.如权利要求1所述的方法,所述文本识别包括:
对所述视频进行取帧,以获得所提取的每一帧的图片;
对所述图片中的文本进行识别,以作为文本信息;以及
对所述文本信息进行关键词抽取,以将所述抽取的关键词作为识别结果。


5.如权利要求1所述的方法,所述文本识别包括:
获取所述视频周边文本,以作为文本信息,其中所述周边文本包括以下中的一个或多个:标题、描述文本、语音文本;
对所述文本信息进行分词处理;
将经分词处理的的词输入经训练的词粘度模型,以获得每一个所述词能与其后一个词连在一起的概率;以及
筛选所述概率大于阈值概率的词,以将所述词组成关键短语,作为识别结果。


6.如权利要求5所述的方法,筛选所述概率大于阈值概率的词,以将所述词组成关键短语,作为识别结果包括:
获得所述组成的关键短语中的每个词的逆文档频率;
计算所述关键短语中的所有词的逆文档频率之和,以作为所述关键短语的逆文档频率;
选择其逆文档频率最高的预定个数的关键短语作为所述识别结果。


7.如权利要求4或5所述的方法,还包括:
对所述文本信息进行情感分析,其中所述情感包括正面情感、中性情感和反面情感;以及
对所述文本信息进行敏感度识别。


8.如权利要求1所述的方法,所述图像识别包括人脸识别,其中,对所述视频数据进行预定义内容识别包括:
对所述视频进行取帧,以获得所提取的每一帧的图片;以及
对所述图片中的人脸进行识别,以基于人脸数据库识别出所述人脸对应的名称。


9.如权利要求1所述的方法,所述图像识别还包括:场景识别、实体识别以及标识识别,其中,对所述视频数据进行预定义内容识别包括:
将所述视频进行取帧,以获得所提取的每一帧的图片;
对所述图片中的场景进行识别;
对所述图片中的实体进行识别;以及
对所述图片中的标识进行识别。


10.如权利要求1所述的方法,所述舆情获取请求还包括所要过滤掉的舆情关键词,其中,确定经匹配得到的结果视频数据包括:
将匹配得到的视频数据中包括所述所要过滤掉的舆情关键词相对应的识别结果的视频数据进行过滤;以及
确定所述过滤后的视频数据作为所述结果视频数据。


11.一种词粘度模型训练方法,包括:
对文本语料进行分词,以获得多个词对作为训练样本,其中所述词对包括前词和后词两个词;
基于所述训练样本训练所述词粘度模型,以使得所述词粘度模型输出每一个词对能够组成关键短语的概率;以及
通过梯度下降训练所述词粘度模型,直到所述词粘度模型达到预设条件则停止训练,其中所述预设条件包括预设精度或预设训练次数。


12.如权利要求11所述的方法,对文本语料进行分词,以获得多个词对作为训练样本,其中所述词对包括前词和后词两个词包括:
对文本语料进行分词处理;
设置后词窗口,其中所述后词窗口表示能够与所述前词组成词对的所述前词在所述文本预料中的位置之后的词个数;
设置所述后词窗口中的每一个词能与所述前词组成词对的概率,其中,根据在所述文本预料中的顺序,所述概率依次减小;以及
根据所述后词窗口和所述概率获取词对,以作为训练样本。

<...

【专利技术属性】
技术研发人员:章文俊黄强方军潘旭李云聪杨哲洪赛丁
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1