一种语音识别后的视频片名纠错方法及系统技术方案

技术编号:27475957 阅读:16 留言:0更新日期:2021-03-02 17:44
本发明专利技术公开了一种语音识别后的视频片名纠错方法,包括:对语音识别后的文本进行预处理;提取预处理后的文本中包含的视频片名;基于相似度算法,返回视频片名库中与提取的视频片名最相似的视频片名;使用语音识别后的文本和用户历史信息作为语言模型的输入,得到纠错后的视频片名;根据语言模型得到纠错后的视频片名以及相似度算法返回的最相似的视频片名,得到最终的纠错片名。同时,本发明专利技术还公开了一种语音识别后的视频片名纠错系统,通过该方法和系统,避免了分词错误、纠错范围受限、以及端到端的方法受限的技术问题,并利用了特定用户的观看习性,提升了语音识别视频片名的准确率。率。率。

【技术实现步骤摘要】
一种语音识别后的视频片名纠错方法及系统


[0001]本专利技术涉及自然语言处理和深度学习
,尤其涉及一种语音识别后的视频片名纠错方法及系统。

技术介绍

[0002]在人机交互过程中,相对其它方式,语音交互更符合人们的日常习惯。因此,随着深度学习的普及以及语音识别技术的发展,语音交互已广泛的应用于智能家居、工业生产、医疗和自动驾驶等各个领域。尤其是近年来智能电视的飞速更新换代,语音交互作为一种重要的智能交互方式已广泛的应用与各电视品牌的智能电视中。人们通过说一句话就能直接看到想看的电视剧或电影,而无需像传统方式一样手动多次按电视遥控器才能看到电视剧或电影。然而在实际的与电视语音交互过程中,由于方言的存在或者普通话不标准导致了语音识别的错误,尤其是视频片名的识别错误,严重降低了人们的使用体验感。因此对语音识别后的视频片名进行纠错意义重大。
[0003]目前大多数的语音识别后的文本纠错基于以下两类方法:第一类纠错方法是基于规则的方法,即先找出错误的地方,然后再纠错。错误检测部分先通过结巴等中文分词器分词,形成疑似错误位置候选集;错误纠正部分,遍历所有的疑似错误位置,使用预先构建的可能正确的词替换错误位置的词,然后通过语言模型计算句子困惑度,对所有候选集结果比较并排序,得到最优纠正词。这类方法纠错正确率受限于分词的正确性、预先构建的词库质量和语言模型的质量。第二类纠错方法则是基于端到端的方法,这类方法采用RNN等模型对文本直接进行纠错,避免人工提取特征,减少人工工作量。这类方法的纠错正确率则受限于训练语料的规模和质量。
[0004]综上所述,上述两类方法存在以下几个问题:一是语音识别的错误会导致分词错误,而分词的错误会导致找到错误的被纠错词项;二是端到端的方法往往基于语料库训练得到纠错模型,从而只能对一些通用的错误进行纠错;三是现有的端到端的方法基于数据统计训练得到,没有考虑到特定用户的观看习性,从而导致了即使进行了纠错,返回的可能不是用户想看的电影或电视剧。

技术实现思路

[0005]本专利技术的目的在于提供一种语音识别后的视频片名纠错方法及系统,用于解决现有方法存在的由于分词质量,预先构建的词库质量、语言模型的质量以及训练语料质量导致纠错错误的问题,以及只能对一些通用的错误进行纠错而没有考虑用户观看习性等缺陷。
[0006]为实现上述目的,本专利技术采用的技术方案为一种语音识别后的视频片名纠错方法,包括:
[0007]步骤A、对语音识别后的文本进行预处理;
[0008]步骤B、提取预处理后的文本中包含的视频片名;
[0009]步骤C、基于相似度算法,返回视频片名库中与提取的视频片名最相似的视频片名;
[0010]步骤D、使用语音识别后的文本和用户历史信息作为语言模型的输入,得到纠错后的视频片名;
[0011]步骤E、根据语言模型得到纠错后的视频片名以及相似度算法返回的最相似的视频片名,得到最终的纠错片名。
[0012]进一步地,所述步骤A的方法,至少包括:
[0013]去掉语音识别后的文本中会对视频片名提取或纠错造成影响的文字;
[0014]转换语音识别后的文本中部分文字的格式,实现格式统一。
[0015]进一步地,所述步骤B的方法,至少包括:
[0016]基于规则方法利用编写的正则表达式直接提取视频片名;
[0017]基于实体识别方法利用数据训练模型提取视频片名。
[0018]进一步地,所述数据训练模型为CRF、LSTM+CRF或BERT模型。
[0019]进一步地,所述步骤C的方法,包括:基于拼音、文字以及深度学习模型的向量进行相似度计算的方法,得到对应的视频片名,以及相似度值,并采用决策算法得到最终的最相似的视频片名。
[0020]进一步地,所述步骤D的方法,包括获取用户历史信息,使用语言模型的编码器对语音识别后的文本进行编码,得到语音识别后的文本的编码向量,使用语音识别后的文本的编码向量和用户历史信息作为语言模型解码器的输入,从语言模型中得到纠错后的视频片名。
[0021]进一步地,所述语言模型为基于seq2seq架构,编码器采用LSTM、GRU或BERT模型,解码器采用LSTM或GRU模型。
[0022]进一步地,所述步骤E的方法,若最相似的视频片名与纠错后的视频片名的相似度值大于设定阈值,则直接返回最相似的视频片名;否则,返回纠错后的视频片名。
[0023]另外,本专利技术采用的另一技术方案为一种语音识别后的视频片名纠错系统,包括:
[0024]文本预处理模块,用于对语音识别后的文本进行预处理;
[0025]视频片名提取模块,用于提取预处理后的文本中包含的视频片名;
[0026]相似度算法模块,用于基于相似度算法,返回视频片名库中与提取的视频片名最相似的视频片名;
[0027]语言模型模块,用于使用语音识别后的文本和用户历史信息作为语言模型的输入,得到纠错后的视频片名;
[0028]纠错片名确定模块,用于根据语言模型得到的视频片名以及相似度算法返回的最相似的视频片名,得到最终的纠错片名。
[0029]本专利技术的有益效果是:
[0030]通过本专利技术提供的一种语音识别后的视频片名纠错方法,预先对语音识别文本进行处理,利用规则或实体识别提取视频名并获得最相似的视频片名;然后,利用了用户历史观看习性对视频片名纠错并获得纠错后的视频片名,最后通过两者的相似度比较得出最终的纠错片名。避免了因分词错误导致提取出错误的被纠错词的问题、规则方法纠错范围受限于事先构建的词库、以及端到端的方法受限于训练语料只能对通用的错误进行纠错的问
题,并利用了特定用户的观看习性,从而提升了语音识别视频片名的准确率,提高用户体验。
附图说明
[0031]图1为本专利技术实施例中一种语音识别后的视频片名纠错方法的流程图;
[0032]图2为本专利技术实施例中一种语音识别后的视频片名纠错系统的结构示意图。
具体实施方式
[0033]下面将结合本专利技术实施例的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]实施例一
[0035]参照附图1,本实施例的一种语音识别后的视频片名纠错方法,包括:
[0036]步骤A、对语音识别后的文本进行预处理。
[0037]对语音识别后的文本进行预处理方法,包括:
[0038]步骤A01、去掉语音识别后的文本中会对视频片名提取纠错造成影响的文字。例如,具体实施例中,去除文本中包含的“集”、“季”和“第X集”等对视频片名提取、纠错造成影响的文字。
[0039]对语音识别后的文本进行预处理方法,还包括但不限于:
[0040]步骤A02、转换语音识别后的文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别后的视频片名纠错方法,其特征在于,包括:步骤A、对语音识别后的文本进行预处理;步骤B、提取预处理后的文本中包含的视频片名;步骤C、基于相似度算法,返回视频片名库中与提取的视频片名最相似的视频片名;步骤D、使用语音识别后的文本和用户历史信息作为语言模型的输入,得到纠错后的视频片名;步骤E、根据语言模型得到纠错后的视频片名以及相似度算法返回的最相似的视频片名,得到最终的纠错片名。2.根据权利要求1所述的视频片名纠错方法,其特征在于,所述步骤A的方法,包括:去掉语音识别后的文本中会对视频片名提取或纠错造成影响的文字;转换语音识别后的文本中部分文字的格式,实现格式统一。3.根据权利要求1所述的视频片名纠错方法,其特征在于,所述步骤B的方法,包括:基于规则方法利用编写的正则表达式直接提取视频片名;基于实体识别方法利用数据训练模型提取视频片名。4.根据权利要求3所述的视频片名纠错方法,其特征在于,所述数据训练模型为CRF、LSTM+CRF或BERT模型。5.根据权利要求1所述的视频片名纠错方法,其特征在于,所述步骤C的方法,包括:基于拼音、文字以及深度学习模型的向量进行相似度计算的方法,得到对应的视频片名,以及相似度值,并采用决策算法得到最终的最相似的视频片名。6.根...

【专利技术属性】
技术研发人员:周兴发方凡饶璐谭斌杨兰孙锐展华益
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1