自动获取新闻标题方法、系统、计算机设备及存储介质技术方案

技术编号：26343450 阅读：43 留言：0更新日期：2020-11-13 20:45

本发明专利技术公开了一种自动获取新闻标题方法、系统、计算机设备及存储介质，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题。本发明专利技术对于提取不同类型的新闻标题都有很好的效果，同时不用进行人工标记制作模板等人工辅助操作，因此可以大大节约人工成本，在新闻标题提取的工作中具有较为深远的意义。

Method, system, computer equipment and storage medium for automatically obtaining news headlines

全部详细技术资料下载

【技术实现步骤摘要】
自动获取新闻标题方法、系统、计算机设备及存储介质
本专利技术涉及数据处理
，尤其涉及一种自动获取新闻标题方法、系统、计算机设备及存储介质。
技术介绍
近年来，电视新闻类节目在快速发展和扩大，电视新闻类也随着电视的普及逐渐替代纸质类新闻成为人们获取新闻的第一途径。其中新闻标题作为新闻的高度概括和主题精华可以作为视频片断的内容标识和索引，对于理解新闻的内容具有重要的意义，而人工识别新闻标题费时费力，因此新闻标题自动定位、提取和识别为相应视频流进行高级语义标注、建立视频数据库和智能检索，提供了一种切实可行和有效的途径。也成为新闻检索和新闻自动拆条任务的主要工具。新闻场景OCR（OpticalCharacterRecognition，光学字符识别）识别方法采用了分两步完成文本识别：第一步为利用PSENET（ProgressiveScaleExpansionNetwork，渐进式规模扩张网络）实现新闻画面中文本检测工作，利用渐进式尺度扩展网络的形状鲁棒文本检测。第二步在文本检测结果的基础上利用CRNN（Convolution本文档来自技高网...

【技术保护点】
1.一种自动获取新闻标题方法，其特征在于，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题。/n

【技术特征摘要】
1.一种自动获取新闻标题方法，其特征在于，利用OCR获取新闻视频中单帧图片的每个单行文本框坐标信息以及文本框内的文本信息，采用文本框聚类和字符相似度比较的方法确定待选标题；利用BERT和LSTM配合CRF提取文本信息的实体，通过实体识别结果筛除非标题信息，最后根据单条新闻入出点信息确定新闻标题。

2.根据权利要求1所述的一种自动获取新闻标题方法，其特征在于，包括以下步骤：
步骤1：对整档新闻进行OCR识别工作，利用PSENET对新闻单帧图片进行文本检测，得到文本框后利用CRNN对文本框中文本进行识别，识别完成后记录文本框信息以及文本信息；
步骤2：根据整档新闻的OCR结果，以及新闻标题具有多帧在同样位置且文本信息相同的特点，先对单行的文本位置进行聚类工作，利用每个文本框相近位置文本框的出现与消失，将整档新闻切割成多个文本框组成的文本shot；
步骤3：利用CRNN识别的文字信息，根据每个文本shot中文本信息是否相同，将每个文本shot分为是否为标题待选文本，其中文本信息相同的为标题待选文本，文本信息不同的列为非标题文本；
步骤4：利用BERT和LSTM配合CRF对标题待选文本进行实体识别，当抽取到文本实体中有非标题信息时，判断该文本信息为非标题文本将其筛出，最后利用每条新闻的入出点与文本的入出点进行匹配确定最后的新闻标题。

3.根据权利要求2所述的一种自动获取新闻标题方法，其特征在于，步骤1包括以下子步骤：
首先从某个电视频道的新闻节目中获取视频，将视屏按照每隔预设帧数解码一次，解码成图片；对解码后图片中新闻字幕位置进行OCR识别，先用PSENET对图片进行文本检测，然后根据PSENET得到的文本框，利用CRNN对单行文本框中的文本进行识别，得到结果存储到列表或数据库中，存储为文本框以及对应的文本内容和帧号；重复此步骤，直到整个视频识别完毕。

4.根据权利要求3所述的一种自动获取新闻标题方法，其特征在于，步骤2包括以下子步骤：
步骤201：先根据文本框的坐标信息，求出每个文本框的高度和宽度，然后计算出所有文本框的均值和方差，然后通过式（1）和式（2），利用高度和宽度滤除掉不符合规范的文本框；然后计算每个文本框的面积，若是大于所有文本框的面积的均值与方差的差值，则留下该文本框；否则滤除该文本框，同时滤除掉空的文本检测框；
log2(w*h)>filter_threshold式（1）
log2(w)>width_mean式（2）
其中，w为文本框的宽度，h为文本框的高度，filter_threshold为文本框面积阈值，width_mean为所有文本框宽度的均值；
步骤202：将同一位置文本框会再出现和消失所在的帧号作为一个文本shot的入出点，并将文本框坐标点以及宽高的误差设置在预设像素内，然后利用聚类，将所有文本框聚类为多个文本shot，每一个文本shot作为一个标题备选；
步骤203：步骤202中得到的...

【专利技术属性】
技术研发人员：温序铭，牟骏杰，谢超平，
申请(专利权)人：成都索贝数码科技股份有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人