一种电视问答语料数据的增强方法技术

技术编号:39402142 阅读:35 留言:0更新日期:2023-11-19 15:54
本发明专利技术主要涉及自然语音处理领域。为了解决电视问答模型中由于可用于进行模型训练的有效数据不足,导致模型训练结果准确度不够的问题,本发明专利技术提供一种电视问答语料数据的增强方法,通过收集电视问题语料数据,自定义构建分词字典;对收集的问答语料数据进行纠错后分别输入EDA模块与回译模块,获得n条增强文本;用自定义的分词字典对纠错后的原始语料数据和增强文本进行分词处理后输入文本生成模型,获得二次增强文本;将二次增强文本输入encoder模型,获取词向量,输出增强文本结果,能够有效地有效提高模型泛化能力,增强用户体验。验。验。

【技术实现步骤摘要】
一种电视问答语料数据的增强方法


[0001]本专利技术主要涉及自然语音处理领域,尤其是一种电视问答语料数据的增强方法。

技术介绍

[0002]数据是一切模型、算法的基石,没有足够多数量的、高质量的数据作为基础,再好的算法也体现不出它的价值。国内高质量开源的数据太少,一般都被一些大企业独占,不开源不可商用。在数据处理中解决样本数据少,样本分布不均衡的一种常用处理方式是针对小样本类别,运用数据增强技术进行样本扩充,降低样本间的不均衡性,提高模型的泛化能力。基于业务需求,电视需要基于生成模式建立的使用问答、故障问答功能,但是关于电视问答模型,可用于训练的数据较少。
[0003]另外,目前常用的数据增强的方法包括三种,一种称为EDA(Easydataaugmentation)的文本增强方法,该方法可以认为是数据增强的集大成者。EDA增强主要包含四种操作:同义词替换、随机插入、随机交换和随机删除。详细说明如下:
[0004](1)同义词替换(SR):从句子中随机选择非停止词,用随机选择的同义词进行替换;
[0005](2)随机插入本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种电视问答语料数据的增强方法,其特征在于,包括以下步骤:收集电视问题语料数据,将电视问题语料数据转化为原始文本语料数据;将原始文本语料数据分别输入EDA模块与回译模块,获得一次增强文本语料数据;自定义分词字典,用自定义的分词字典对原始文本语料数据和经过EDA模块、回译模块增强的一次增强文本语料数据进行分词处理后输入文本生成模型,获得二次增强文本语料数据;分别将经过EDA模块和回译模块进行增强的二次增强文本语料数据输入encoder模型,获取词向量,输出电视问题语料数据的增强文本结果。2.根据权要求1所述的一种电视问答语料数据的增强方法,其特征在于,建立用户错拼词候选集,根据用户错拼词候选集对原始文本语料数据进行常用同音词和平翘舌语料纠错,将进行语料纠错后的文本语料数据分别输入EDA模块和回译模块。3.根据权利要求1所述的一种电视问答语料数据的增强方法,其特征在于,建立用户常用词同义词库,收集电视问题语料常用词的同义词;EDA模块进行文本增强包括,设置EDA模块的参数对原始文本语料数据分别执行同义词替换、随机插入、随机删除和随机交换:同义词替换,随机从原始文本语料数据中选中某个非停止词,从用户常用词同义词库中找出该词的同义词对其进行替换;随机...

【专利技术属性】
技术研发人员:孙云云高美军周杰
申请(专利权)人:四川长虹电器股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1