新闻自动拆条的条件随机场算法预测结果回流训练方法技术

技术编号：24355149 阅读：69 留言：0更新日期：2020-06-03 02:24

本发明专利技术公开了一种新闻自动拆条的条件随机场算法预测结果回流训练方法，包括：步骤一，新闻节目视频数据化；步骤二，训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测，得到该新闻节目视频的新闻故事；步骤三，收集该新闻节目视频的新闻故事的入出点信息；步骤四，周期性利用收集到的新闻故事的入出点信息，结合启发式规则，自动修正旧场景层特征数据表中的场景层特征数据，并将修正后的场景层特征数据保存到CRF训练数据表中；步骤五，根据距离上次训练时间以及CRF训练数据表中的数据量大小，重新训练条件随机场模型。本发明专利技术的方法可以提升条件随机场算法的准确率，并节约后续人工修正场景层算法预测标签时间。

Conditional random field algorithm for automatic news striping

全部详细技术资料下载

【技术实现步骤摘要】
新闻自动拆条的条件随机场算法预测结果回流训练方法
本专利技术属于广播电视新闻自动拆条领域，尤其是一种新闻自动拆条的条件随机场算法预测结果回流训练方法，以自动修正标注预测结果数据标签进行回流训练，适用于广播电视新闻自动拆条。
技术介绍
近年来，随着电视新闻类节目的迅速发展，电视新闻类节目受到的关注也逐渐增多。电视新闻作为一种重要的信息承载方式，有着及时报道、舆论引导等非常重要的作用。电视新闻通常是作为一整档的节目播出，但是随着观众、视频编辑人员对于快速检索到视频报道某些内容的需求逐渐增多，广播电视新闻自动拆条的功能也相应出现。条件随机场（ConditionRandomField,CRF）算法目前已经广泛的应用在广播电视新闻自动拆条领域。条件随机场算法是一种有监督学习算法，用于标注序列数据。电视新闻的自动拆条，其实就是对电视新闻的众多拆条进行顺序标注，然后根据标注的结果组合成新闻故事。该算法首先需要电视新闻拆分成许多小片段，然后将这些小片段作为训练数据。首先根据真实新闻故事的分段人工标记为SS（SingleScene）、BS（BeginScene）、MS（MiddleScene）、ES（EndScene），再提取这些小片段的特征数据（如：是否出现有主持人的演播室，临近片段间的实体相似度等）。根据人工标注的标签以及自动提取出的特征数据，组成训练数据供条件随机场算法学习。最后，利用学习的模型进行标签预测，从而将广播电视新闻自动拆条。然而，在实际工程应用中，条件随机场算法的应用受到了一定的挑战。主要是因为条件随...

【技术保护点】
1.一种新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，包括：/n步骤一，新闻节目视频数据化；/n步骤二，训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测，得到该新闻节目视频的新闻故事；/n步骤三，收集该新闻节目视频的新闻故事的入出点信息；/n步骤四，周期性利用收集到的新闻故事的入出点信息，结合启发式规则，自动修正旧场景层特征数据表中的场景层特征数据，并将修正后的场景层特征数据保存到CRF训练数据表中；/n步骤五，根据距离上次训练时间以及CRF训练数据表中的数据量大小，重新训练条件随机场模型。/n

【技术特征摘要】
1.一种新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，包括：
步骤一，新闻节目视频数据化；
步骤二，训练条件随机场模型并用于对需要进行标签预测的新闻节目视频进行标签预测，得到该新闻节目视频的新闻故事；
步骤三，收集该新闻节目视频的新闻故事的入出点信息；
步骤四，周期性利用收集到的新闻故事的入出点信息，结合启发式规则，自动修正旧场景层特征数据表中的场景层特征数据，并将修正后的场景层特征数据保存到CRF训练数据表中；
步骤五，根据距离上次训练时间以及CRF训练数据表中的数据量大小，重新训练条件随机场模型。

2.根据权利要求1所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤一包括如下子步骤：
步骤101，根据新闻节目视频中的音频停顿点，对该新闻节目视频进行初步切割得到场景层片段；
步骤102，根据每个场景层片段的视频信息，提取该场景层片段是否含演播室画面，以及在根据当前场景层片段和下一个场景层片段的演播室画面，提取演播室画面转化信息；
步骤103，根据每个场景层片段的音频信息，提取每个场景层片段的语音信息，再根据所有场景层片段的语音信息，提取每个场景层片段的主题分布与关键词；针对当前场景层片段和下一场景层片段的主题分布，利用余弦距离，计算相邻两个场景层片段的主题相似度，并根据所有场景层片段的主题相似度值，计算分位数以便将主题相似度值离散化；根据当前场景层片段和下一场景层片段的关键词，利用word2vect，计算关键词相似度，并根据所有场景层片段的关键词相似度值，计算分位数以便将关键词相似度值离散化；
步骤104，根据所有场景层片段的语音信息，提取每个场景层片段的实体，包括人物、时间、地点及组织机构；根据当前条场景层片段和下一场景层片段相应的实体类别，计算两者之间的Jaccard距离；最后根据所有场景层片段的不同实体类别，计算Jaccard距离的分位数，并根据分位数将连续的实体相似度离散化；
步骤105，根据真实新闻故事的结构，人工初始化对经过步骤101～104得到的场景层特征数据打上BS/MS/ES/SS标签。

3.根据权利要求2所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，所述演播室画面转化信息包括两个演播室间转换、两个非演播室间转换、演播室与非演播室间转换3类。

4.根据权利要求2或3所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤二包括如下子步骤：
步骤201，利用步骤一得到的初始化数据，训练条件随机场模型；
步骤202，将需要进行标签预测的新闻节目视频根据步骤101～104数据化，并将数据化后得到的场景层特征数据保存到旧场景层特征数据表中；
步骤203，对旧场景层特征数据表中的场景层特征数据，利用训练好的条件随机场模型进行标签预测；
步骤204，将步骤203预测的标签组合成该需要进行标签预测的新闻节目视频的新闻故事。

5.根据权利要求4所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤三的方法为：若该新闻节目视频的新闻故事完全正确，则无需记录新闻故事的入出点信息；若该新闻节目视频的新闻故事有误，则收集所有有误的新闻故事的入出点信息记录并保存到修正新闻数据表ID_list中，且将该新闻节目视频是否进行回流训练的标记is_check置0。

6.根据权利要求5所述的新闻自动拆条的条件随机场算法预测结果回流训练方法，其特征在于，步骤四包括如下子步骤：
步骤401，周期性统计修正新闻数据表ID_list中未进行回流训练的新闻节目视频数量，若存在未进行回流训练的新闻节目视频，则执行步骤402；否则该周期不回流数据；
步骤402，获取...

【专利技术属性】
技术研发人员：张诚，王炜，温序铭，杨瀚，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人