语料数据处理方法、装置、服务器和存储介质制造方法及图纸

技术编号:24331201 阅读:29 留言:0更新日期:2020-05-29 19:39
本申请实施例适用于人工智能技术领域,提供了一种语料处理方法、装置、服务器和存储介质,所述方法包括:获取待处理的语料数据;提取所述语料数据的特征信息;根据所述特征信息,计算所述语料数据的多样性分值;根据所述多样性分值,对所述语料数据进行处理。上述方法可以有效地评估开发者定义的用户说法的多样性,便于开发者在配置技能时提供更丰富的说法数据,有助于提高技能质量,减少技能审核周期,提升技能整体开发周期,可以应用于自然语言处理等领域,尤其是在对话系统的数据预处理阶段应用本方法,可以提高后续语言理解、分析的效率和准确率。

【技术实现步骤摘要】
语料数据处理方法、装置、服务器和存储介质
本申请属于人工智能
,尤其涉及一种语料数据处理方法、装置、服务器和存储介质。
技术介绍
对话系统是交互式人工智能(ArtificialIntelligence,AI)的一个重要研究方向,其在工业领域中也有重要的应用。智能虚拟助手(IntelligentVirtualAssistant,IVA)或语音助手(VoiceAssistant,VA)可以针对用户的语音询问进行分析和识别,然后执行相应的操作以满足用户的要求。例如,在智能车载终端中,对司机的语音进行检测,识别司机播放音乐、查阅热点新闻等需求;在智能家居系统中,对用户的语音命令进行检测,识别用户播放电视剧、打扫室内卫生等需求。在实际应用中,对话系统依然是一个具有挑战性的课题,主要问题包括外部噪音对用户语音的干扰、自然语言理解的准确性、对话上下文管理等。其中,自然语音理解(NaturalLanguageUnderstanding,NLU)是影响对话系统智能程度非常重要的一部分。但是,由于用户在表达同一个意图时,往往会有各种各样的表达方式,这本文档来自技高网...

【技术保护点】
1.一种语料数据处理方法,其特征在于,包括:/n获取待处理的语料数据;/n提取所述语料数据的特征信息;/n根据所述特征信息,计算所述语料数据的多样性分值;/n根据所述多样性分值,对所述语料数据进行处理。/n

【技术特征摘要】
1.一种语料数据处理方法,其特征在于,包括:
获取待处理的语料数据;
提取所述语料数据的特征信息;
根据所述特征信息,计算所述语料数据的多样性分值;
根据所述多样性分值,对所述语料数据进行处理。


2.根据权利要求1所述的方法,其特征在于,所述获取待处理的语料数据,包括:
获取用户输入的原始语料数据;
对所述原始语料数据进行数据清洗,获得待处理的语料数据。


3.根据权利要求2所述的方法,其特征在于,所述对所述原始语料数据进行数据清洗,获得待处理的语料数据,包括:
识别所述原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称;
将具有相同槽位名称的词语替换为对应的槽位名称;
识别并删除所述原始语料数据中的停用词,获得待处理的语料数据。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述特征信息包括所述语料数据中每个词语的生成概率;
相应的,所述提取所述语料数据的特征信息,包括:
识别所述语料数据包含的至少一个用户意图;
确定每个用户意图包含的用户语句;
根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率。


5.根据权利要求4所述的方法,其特征在于,所述根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率,包括:
对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;
分别统计分词后的每个词语出现的次数;以及,
统计分词后的全部词语出现的总次数;
根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率。


6.根据权利要求5所述的方法,其特征在于,所述根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率,包括:
计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个。


7.根据权利要求5或所述的方法,其特征在于,所述根据所述特征信息,计算所述语料数据的多样性分值,包括:
统计分词后的全部词语的词语个数;
以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;
根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值。


8.根据权利要求7所述的方法,其特征...

【专利技术属性】
技术研发人员:邓东张晴舒昌文周元甲曾春亮
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1