一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质技术

技术编号:27935760 阅读:35 留言:0更新日期:2021-04-02 14:15
本发明专利技术公开了一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质,本发明专利技术能够对短视频口语化文本进行纠错,在短视频口语化文本上定义关键词类型,结合领域词表,专家系统的特殊类型关键词抽取模型和基于深度学习的关键词抽取模型共同抽取关键词,并对最终结果做后处理进行筛选。本发明专利技术的提取方法不仅优化了口语化文本自身的准确性,提高关键词抽取的召回率,而且丰富了关键词的抽取类型,并结合后处理做到了关键词抽取的可控性。

【技术实现步骤摘要】
一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质
本专利技术具体涉及一种对垂直领域短视频ASR文本关键词的抽取方法、计算机设备及可读存储介质。
技术介绍
针对特定领域关键词抽取的问题,目前主要有以下几种方法:(1)基于领域词表,通过文本硬匹配方式进行相关领域关键词抽取。(2)基于无监督方式的抽取方式,例如TF-IDF,TextRank等。现有技术中,对特定领域关键词的抽取方法存在以下缺点:(1)基于领域词表的抽取方式,需要耗费大量人力整理相关特定领域词表,且针对部分领域还需专业人员参与,成本很大。同时该方式抽取关键词召回偏低,换一个领域该词表就不适用。(2)基于无监督方式的抽取方案,该类方法根据统计信息,如词频来计算得到文档中词语的权重,按权重值排序提取关键词。此类方法简单易行,但未考虑该词在整个文本中的语意。(3)由于ASR(语音识别AutomaticSpeechRecognition)文本天然存在不通顺、错字、口语化严重等问题,关键词抽取结果精度偏低。<本文档来自技高网...

【技术保护点】
1.一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,包括以下步骤:/n(1)对待处理短视频进行处理获取ASR文本;/n(2)对步骤(1)得到的ASR文本进行文本纠错,获得纠错后的ASR文本;/n(3)基于领域关键词表,对步骤(2)得到的ASR文本抽取专有名词;/n(4)基于专家系统的特殊类型关键词抽取模型,对步骤(2)得到的ASR文本抽取特殊类型的关键词;/n(5)基于关键词抽取模型,对步骤(2)得到的ASR文本抽取相应的关键词;/n(6)对步骤(3)-(5)获取的关键词做合并去重、重要度排序后处理,得到最终的抽取结果。/n

【技术特征摘要】
1.一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,包括以下步骤:
(1)对待处理短视频进行处理获取ASR文本;
(2)对步骤(1)得到的ASR文本进行文本纠错,获得纠错后的ASR文本;
(3)基于领域关键词表,对步骤(2)得到的ASR文本抽取专有名词;
(4)基于专家系统的特殊类型关键词抽取模型,对步骤(2)得到的ASR文本抽取特殊类型的关键词;
(5)基于关键词抽取模型,对步骤(2)得到的ASR文本抽取相应的关键词;
(6)对步骤(3)-(5)获取的关键词做合并去重、重要度排序后处理,得到最终的抽取结果。


2.根据权利要求1所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,关键词抽取模型的构建包括数据集建立与模型训练,所述数据集建立与模型训练包括以下步骤:
(1.1)搜集垂直领域的相关短视频素材,调用语音转文本模块得到原始ASR文本;
(1.2)调用文本纠错模块对原始ASR文本进行纠错处理,得到待标注ASR文本;
(1.3)根据垂直领域专家的意见,总结待抽取关键词类型,
(1.4)对每一段ASR文本进行标注,构建ASR关键词抽取训练集语料和测试集语料;
(1.5)使用TensorFlow框架搭建网络结构和模型训练测试代码,使用步骤(1.4)中的训练语料训练基于深度学习的关键词抽取模型。


3.根据权利要求2所述的一种对垂直领域短视频ASR文本关键词的抽取方法,其特征是,步骤(1.5)中,关键词抽取模型为标准的序列标注模型。

【专利技术属性】
技术研发人员:王磊黄颖骅
申请(专利权)人:杭州艾耕科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1