自适应广播电视新闻关键词标准化方法技术

技术编号:28942007 阅读:30 留言:0更新日期:2021-06-18 21:48
本发明专利技术公开了自适应广播电视新闻关键词标准化方法,包括步骤:步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库等;本发明专利技术作为利用智能化技术为广播电视新闻进行自动化内容标签标引的方法,在考虑用户实际业务需求的前提下,自适应地进行关键词的标准化和特色词库的扩展,可以更准确地组织和管理媒体资源,提高管理效率等。

【技术实现步骤摘要】
自适应广播电视新闻关键词标准化方法
本专利技术涉及广播电视新闻媒资自动标引领域,更为具体的,涉及自适应广播电视新闻关键词标准化方法。
技术介绍
融合媒体时代,爆炸式增长的新闻视频数据给媒体资源的再利用带来了巨大的挑战,如何“快”、“省”、“易”地对相关新闻视频进行编目变得十分重要。另一方面,随着计算机运算能力的提升以及相关视觉、NLP算法手段的逐步成熟,通过大数据和人工智能技术来实现自动化的视频内容数据标引从而提高编目质量和标引的实时性已经成为一种趋势。在这种环境下,媒体数据资料的管理从传统人工编目逐步转换到依托智能化管理平台的自动编目。通过实体识别、人脸识别、景别识别、关键词识别等AI技术,可以实现对媒体内容多个维度的自动分类、标识、标引,从而实现媒体资源本身的内容标签的自动提取。在媒体内容标签中,“关键词”是传统编目的一个重要著录项,与内容密切相关,然而目前AI技术提取的关键词还达不到用户实际业务需求。一方面,这是由于中文用词较为灵活和多样,不同的新闻可以用不同的词表达同一个语义,还有各种缩略词、指代词;另一方面,用户通过多年的人工本文档来自技高网...

【技术保护点】
1.自适应广播电视新闻关键词标准化方法,其特征在于,包括:/n步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。/n

【技术特征摘要】
1.自适应广播电视新闻关键词标准化方法,其特征在于,包括:
步骤A,基于基础关键词库标准化候选关键词,对不能被标准化的词则加入白名单,当白名单词增加到设定量后,对白名单内的词进行分析提取代表词返回给用户,用于扩充基础关键词库。


2.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述候选关键词按照如下步骤获取:通过基于训练好的关键词抽取模型对输入的广播电视新闻进行预测,获得关键词抽取结果,对抽取结果进行黑名单过滤形成候选关键词。


3.根据权利要求2所述的自适应广播电视新闻关键词标准化方法,其特征在于,在进行黑名单过滤前,对提取到的关键词进行如下处理:去除冗余、标点分割和通顺分析处理。


4.根据权利要求1所述的自适应广播电视新闻关键词标准化方法,其特征在于,所述基于基础关键词库标准化候选关键词,包括:
步骤A1,获取多个新闻文本语料,构建用于训练FastText词向量模型的学习样本;
步骤A2,基于步骤A1所构建的学习样本进行FastText词向量模型的训练,获得词向量模型;
步骤A3,利用步骤A2中训练好的FastText词向量模型,以及结合近似最近邻方法Hnswlib构建候选关键词...

【专利技术属性】
技术研发人员:温序铭朱婷婷杨瀚严照宇陈智
申请(专利权)人:成都索贝数码科技股份有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1