语料清洗方法、语料录入设备及计算机可读存储介质技术

技术编号:24251998 阅读:29 留言:0更新日期:2020-05-22 23:48
本申请公开了一种语料请求方法、语料录入设备及计算机可读存储介质,该语料清洗方法包括:获取输入的语料;由预先训练好的通用模型对语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;根据各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将冗余词汇从语料中去除。本申请所提供的语料清洗方法能够提高语料清洗时的客观性和准确性。

Corpus cleaning method, corpus input equipment and computer readable storage medium

【技术实现步骤摘要】
语料清洗方法、语料录入设备及计算机可读存储介质
本申请涉及语料清洗
,特别是涉及一种语料清洗方法、语料录入设备及计算机可读存储介质。
技术介绍
在面向用户的人机对话开放式平台中,需要商户针对不同场景和意图录入相应的训练语料,而后系统利用这些训练语料进行训练,在实际对话场景中利用训练得到的模型对终端用户输入的话语进行识别。这类开放式平台面临的一个技术难点是商户掌握的语料往往非常有限,在训练语料稀疏的情况下,机器学习系统可能学习到一些本来与意图判别无关,但却只存在于某类意图的语料中的词汇特征,并在进行判别时过于依赖这些特征。举例来说,假设商户在平台中创建了“查询天气”和“查询航班”两个意图,而在录入语料时只在“查询天气”意图中出现了“请问”这个前缀,那么当对“请问我的航班几点起飞”这句话进行意图识别时,系统可能仅仅因为语句中出现了“请问”一词,就把意图判定为“查询天气”,这显然是不合理的。目前针对该现象一个直接的解决方案是构建停用词表,在进行训练和预测时把无关词汇去除,目前网上有很多停用词表供下载,但这些停用词表不是针对于对话本文档来自技高网...

【技术保护点】
1.一种语料清洗方法,其特征在于,所述方法包括:/n获取输入的语料;/n由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;/n根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除。/n

【技术特征摘要】
1.一种语料清洗方法,其特征在于,所述方法包括:
获取输入的语料;
由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值;
根据所述各个词汇的信息含量预测值而确定冗余词汇,并进一步确定是否将所述冗余词汇从所述语料中去除。


2.根据权利要求1所述的方法,其特征在于,所述由预先训练好的通用模型对所述语料中各个词汇的信息含量进行预测以获取各个词汇的信息含量预测值的步骤之前,进一步包括:
获取多个样本语料;
获取所述样本语料中各个词汇的信息含量;
利用所述多个样本语料以及所述样本语料中词汇的信息含量对所述通用模型训练。


3.根据权利要求2所述的方法,其特征在于,所述获取所述样本语料中各个词汇的信息含量的步骤,包括:
由预先训练好的意图识别模型对所述样本语料在各个意图类别上的概率进行预测而得到第一概率向量;
由所述意图识别模型对分别去除各个词汇后的样本语料在各个意图类别上的概率进行预测而分别得到所述词汇各自对应的第二概率向量;
根据所述第一概率向量和所述词汇各自对应的第二概率向量得到所述词汇各自的信息增益率;
对包括所有所述词汇的信息增益率的序列进行归一化处理而得到所述词汇各自的信息含量。


4.根据权利要求3所述的方法,其特征在于,所述根据所述第一概率向量和所述词汇各自对应的第二概率向量得到所述词汇各自的信息增益率的步骤,包括:
计算所述第一概率向量和所述词汇各自对应的第二概率向量的欧式距离而得到所述词汇各自的信息增益率,或者,计算所述第一概率向量和所述词汇各自对应的第二概率向量的相对熵而得到所述词汇各自的信息增益率。


5.根据权利要求3所述的方法,其特征在于,
所述获取多个样本语料的步骤,包括:
获取初始语料;

【专利技术属性】
技术研发人员:马力熊友军
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1