新闻自动拆条的条件随机场算法预测结果回流训练方法技术

技术编号:24355149 阅读:69 留言:0更新日期:2020-06-03 02:24
本发明专利技术公开了一种新闻自动拆条的条件随机场算法预测结果回流训练方法,包括:步骤一,新闻节目视频数据化;步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;步骤三,收集该新闻节目视频的新闻故事的入出点信息;步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。本发明专利技术的方法可以提升条件随机场算法的准确率,并节约后续人工修正场景层算法预测标签时间。

Conditional random field algorithm for automatic news striping

【技术实现步骤摘要】
新闻自动拆条的条件随机场算法预测结果回流训练方法
本专利技术属于广播电视新闻自动拆条领域,尤其是一种新闻自动拆条的条件随机场算法预测结果回流训练方法,以自动修正标注预测结果数据标签进行回流训练,适用于广播电视新闻自动拆条。
技术介绍
近年来,随着电视新闻类节目的迅速发展,电视新闻类节目受到的关注也逐渐增多。电视新闻作为一种重要的信息承载方式,有着及时报道、舆论引导等非常重要的作用。电视新闻通常是作为一整档的节目播出,但是随着观众、视频编辑人员对于快速检索到视频报道某些内容的需求逐渐增多,广播电视新闻自动拆条的功能也相应出现。条件随机场(ConditionRandomField,CRF)算法目前已经广泛的应用在广播电视新闻自动拆条领域。条件随机场算法是一种有监督学习算法,用于标注序列数据。电视新闻的自动拆条,其实就是对电视新闻的众多拆条进行顺序标注,然后根据标注的结果组合成新闻故事。该算法首先需要电视新闻拆分成许多小片段,然后将这些小片段作为训练数据。首先根据真实新闻故事的分段人工标记为SS(SingleScene)、BS(BeginScene)、MS(MiddleScene)、ES(EndScene),再提取这些小片段的特征数据(如:是否出现有主持人的演播室,临近片段间的实体相似度等)。根据人工标注的标签以及自动提取出的特征数据,组成训练数据供条件随机场算法学习。最后,利用学习的模型进行标签预测,从而将广播电视新闻自动拆条。然而,在实际工程应用中,条件随机场算法的应用受到了一定的挑战。主要是因为条件随机场算法是一种有监督学习算法,其训练数据的标签需要进行人工标注。若将大量训练数据完全进行人工标注(人为标注SS、BS、MS、ES标签),将会耗费大量时间,而且也可能出现新闻理解不正确而错误标注的现象。但是,如果不使用大量训练数据进行训练,又会因为训练集不够而出现欠拟合现象。因此,专利技术一种条件随机场算法预测结果自动回流方案,根据入出点信息,自动修正预测结果数据标签并整合回流后加入训练集进行再训练,不断增加数据集的数量,从而进一步强化条件随机场算法的训练,对于提升条件随机场算法的准确率,节约后续修正时人工标注标签时间,具有十分重要的意义。
技术实现思路
本专利技术所要解决的技术问题是:针对上述存在的问题,提供一种新闻自动拆条的条件随机场算法预测结果回流训练方法,该方法利用从用户处回流的入出点信息,自动修正预测结果数据标签并整合回流后加入训练集,强化条件随机场算法的训练。本专利技术采用的技术方案为:一种新闻自动拆条的条件随机场算法预测结果回流训练方法,包括:步骤一,新闻节目视频数据化;步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;步骤三,收集该新闻节目视频的新闻故事的入出点信息;步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。进一步地,步骤一包括如下子步骤:步骤101,根据新闻节目视频中的音频停顿点,对该新闻节目视频进行初步切割得到场景层片段;步骤102,根据每个场景层片段的视频信息,提取该场景层片段是否含演播室画面,以及在根据当前场景层片段和下一个场景层片段的演播室画面,提取演播室画面转化信息;步骤103,根据每个场景层片段的音频信息,提取每个场景层片段的语音信息,再根据所有场景层片段的语音信息,提取每个场景层片段的主题分布与关键词;针对当前场景层片段和下一场景层片段的主题分布,利用余弦距离,计算相邻两个场景层片段的主题相似度,并根据所有场景层片段的主题相似度值,计算分位数以便将主题相似度值离散化;根据当前场景层片段和下一场景层片段的关键词,利用word2vect,计算关键词相似度,并根据所有场景层片段的关键词相似度值,计算分位数以便将关键词相似度值离散化;步骤104,根据所有场景层片段的语音信息,提取每个场景层片段的实体,包括人物、时间、地点及组织机构;根据当前条场景层片段和下一场景层片段相应的实体类别,计算两者之间的Jaccard距离;最后根据所有场景层片段的不同实体类别,计算Jaccard距离的分位数,并根据分位数将连续的实体相似度离散化;步骤105,根据真实新闻故事的结构,人工初始化对经过步骤101~104得到的场景层特征数据打上BS/MS/ES/SS标签。进一步地,所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。进一步地,步骤二包括如下子步骤:步骤201,利用步骤一得到的初始化数据,训练条件随机场模型;步骤202,将需要进行标签预测的新闻节目视频根据步骤101~104数据化,并将数据化后得到的场景层特征数据保存到旧场景层特征数据表中;步骤203,对旧场景层特征数据表中的场景层特征数据,利用训练好的条件随机场模型进行标签预测;步骤204,将步骤203预测的标签组合成该需要进行标签预测的新闻节目视频的新闻故事。进一步地,步骤三的方法为:若该新闻节目视频的新闻故事完全正确,则无需记录新闻故事的入出点信息;若该新闻节目视频的新闻故事有误,则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中,且将该新闻节目视频是否进行回流训练的标记is_check置0。通过收集有误的新闻故事的入出点信息,可以利用步骤四自动为场景层打上BS/MS/ES/SS四种标签中的一种,从而节约在场景层人工修正标签的时间。进一步地,步骤四包括如下子步骤:步骤401,周期性统计修正新闻数据表ID_list中未进行回流训练的新闻节目视频数量,若存在未进行回流训练的新闻节目视频,则执行步骤402;否则该周期不回流数据;步骤402,获取修正新闻数据表中所有未进行回流训练的新闻节目视频,并取第一个新闻节目视频作为当前的新闻节目视频;步骤403,根据当前新闻节目视频的ID,查询旧场景层特征数据表中对应ID的场景层特征数据:若查询到,则执行步骤404;若查询不到,则删除该ID的新闻节目视频后再执行步骤402;步骤404,检查步骤403查询到的场景层特征数据是否有缺失场景;循环取出该新闻节目视频的所有新闻故事的入点,对该新闻节目视频的每个新闻故事入点,与旧场景层特征数据表中对应ID的场景层特征数据的场景入点比对:若该新闻故事入点在场景层特征数据的场景入点中被找到,则说明该新闻故事入点正确,直接执行步骤405;若该新闻故事入点在场景层特征数据的场景入点中没有被找到,则说明场景层特征数据存在缺失,需要新加一行到场景层特征数据中,且新加行的场景入点等于该新闻故事入点;循环完该新闻节目视频的所有新闻故事的入点后,则利用场景入点对该本文档来自技高网
...

【技术保护点】
1.一种新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,包括:/n步骤一,新闻节目视频数据化;/n步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;/n步骤三,收集该新闻节目视频的新闻故事的入出点信息;/n步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;/n步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。/n

【技术特征摘要】
1.一种新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,包括:
步骤一,新闻节目视频数据化;
步骤二,训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测,得到该新闻节目视频的新闻故事;
步骤三,收集该新闻节目视频的新闻故事的入出点信息;
步骤四,周期性利用收集到的新闻故事的入出点信息,结合启发式规则,自动修正旧场景层特征数据表中的场景层特征数据,并将修正后的场景层特征数据保存到CRF训练数据表中;
步骤五,根据距离上次训练时间以及CRF训练数据表中的数据量大小,重新训练条件随机场模型。


2.根据权利要求1所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤一包括如下子步骤:
步骤101,根据新闻节目视频中的音频停顿点,对该新闻节目视频进行初步切割得到场景层片段;
步骤102,根据每个场景层片段的视频信息,提取该场景层片段是否含演播室画面,以及在根据当前场景层片段和下一个场景层片段的演播室画面,提取演播室画面转化信息;
步骤103,根据每个场景层片段的音频信息,提取每个场景层片段的语音信息,再根据所有场景层片段的语音信息,提取每个场景层片段的主题分布与关键词;针对当前场景层片段和下一场景层片段的主题分布,利用余弦距离,计算相邻两个场景层片段的主题相似度,并根据所有场景层片段的主题相似度值,计算分位数以便将主题相似度值离散化;根据当前场景层片段和下一场景层片段的关键词,利用word2vect,计算关键词相似度,并根据所有场景层片段的关键词相似度值,计算分位数以便将关键词相似度值离散化;
步骤104,根据所有场景层片段的语音信息,提取每个场景层片段的实体,包括人物、时间、地点及组织机构;根据当前条场景层片段和下一场景层片段相应的实体类别,计算两者之间的Jaccard距离;最后根据所有场景层片段的不同实体类别,计算Jaccard距离的分位数,并根据分位数将连续的实体相似度离散化;
步骤105,根据真实新闻故事的结构,人工初始化对经过步骤101~104得到的场景层特征数据打上BS/MS/ES/SS标签。


3.根据权利要求2所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。


4.根据权利要求2或3所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤二包括如下子步骤:
步骤201,利用步骤一得到的初始化数据,训练条件随机场模型;
步骤202,将需要进行标签预测的新闻节目视频根据步骤101~104数据化,并将数据化后得到的场景层特征数据保存到旧场景层特征数据表中;
步骤203,对旧场景层特征数据表中的场景层特征数据,利用训练好的条件随机场模型进行标签预测;
步骤204,将步骤203预测的标签组合成该需要进行标签预测的新闻节目视频的新闻故事。


5.根据权利要求4所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤三的方法为:若该新闻节目视频的新闻故事完全正确,则无需记录新闻故事的入出点信息;若该新闻节目视频的新闻故事有误,则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中,且将该新闻节目视频是否进行回流训练的标记is_check置0。


6.根据权利要求5所述的新闻自动拆条的条件随机场算法预测结果回流训练方法,其特征在于,步骤四包括如下子步骤:
步骤401,周期性统计修正新闻数据表ID_list中未进行回流训练的新闻节目视频数量,若存在未进行回流训练的新闻节目视频,则执行步骤402;否则该周期不回流数据;
步骤402,获取...

【专利技术属性】
技术研发人员:张诚王炜温序铭杨瀚
申请(专利权)人:成都索贝数码科技股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1