语料数据处理方法、装置、服务器和存储介质制造方法及图纸

技术编号：24331201 阅读：29 留言：0更新日期：2020-05-29 19:39

本申请实施例适用于人工智能技术领域，提供了一种语料处理方法、装置、服务器和存储介质，所述方法包括：获取待处理的语料数据；提取所述语料数据的特征信息；根据所述特征信息，计算所述语料数据的多样性分值；根据所述多样性分值，对所述语料数据进行处理。上述方法可以有效地评估开发者定义的用户说法的多样性，便于开发者在配置技能时提供更丰富的说法数据，有助于提高技能质量，减少技能审核周期，提升技能整体开发周期，可以应用于自然语言处理等领域，尤其是在对话系统的数据预处理阶段应用本方法，可以提高后续语言理解、分析的效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
语料数据处理方法、装置、服务器和存储介质
本申请属于人工智能
，尤其涉及一种语料数据处理方法、装置、服务器和存储介质。
技术介绍
对话系统是交互式人工智能(ArtificialIntelligence，AI)的一个重要研究方向，其在工业领域中也有重要的应用。智能虚拟助手(IntelligentVirtualAssistant，IVA)或语音助手(VoiceAssistant，VA)可以针对用户的语音询问进行分析和识别，然后执行相应的操作以满足用户的要求。例如，在智能车载终端中，对司机的语音进行检测，识别司机播放音乐、查阅热点新闻等需求；在智能家居系统中，对用户的语音命令进行检测，识别用户播放电视剧、打扫室内卫生等需求。在实际应用中，对话系统依然是一个具有挑战性的课题，主要问题包括外部噪音对用户语音的干扰、自然语言理解的准确性、对话上下文管理等。其中，自然语音理解(NaturalLanguageUnderstanding，NLU)是影响对话系统智能程度非常重要的一部分。但是，由于用户在表达同一个意图时，往往会有各...

【技术保护点】
1.一种语料数据处理方法，其特征在于，包括：/n获取待处理的语料数据；/n提取所述语料数据的特征信息；/n根据所述特征信息，计算所述语料数据的多样性分值；/n根据所述多样性分值，对所述语料数据进行处理。/n

【技术特征摘要】
1.一种语料数据处理方法，其特征在于，包括：
获取待处理的语料数据；
提取所述语料数据的特征信息；
根据所述特征信息，计算所述语料数据的多样性分值；
根据所述多样性分值，对所述语料数据进行处理。

2.根据权利要求1所述的方法，其特征在于，所述获取待处理的语料数据，包括：
获取用户输入的原始语料数据；
对所述原始语料数据进行数据清洗，获得待处理的语料数据。

3.根据权利要求2所述的方法，其特征在于，所述对所述原始语料数据进行数据清洗，获得待处理的语料数据，包括：
识别所述原始语料数据中的多个槽-值对，确定每个槽-值对中词语的槽位名称；
将具有相同槽位名称的词语替换为对应的槽位名称；
识别并删除所述原始语料数据中的停用词，获得待处理的语料数据。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述特征信息包括所述语料数据中每个词语的生成概率；
相应的，所述提取所述语料数据的特征信息，包括：
识别所述语料数据包含的至少一个用户意图；
确定每个用户意图包含的用户语句；
根据所述用户语句中每个词语出现的次数，计算所述每个词语的生成概率。

5.根据权利要求4所述的方法，其特征在于，所述根据所述用户语句中每个词语出现的次数，计算所述每个词语的生成概率，包括：
对目标用户意图包含的每个用户语句进行分词，所述目标用户意图为所述语料数据包含的用户意图中的任意一个；
分别统计分词后的每个词语出现的次数；以及，
统计分词后的全部词语出现的总次数；
根据所述每个词语出现的次数和所述全部词语出现的总次数，计算所述每个词语在所述目标用户意图下的生成概率。

6.根据权利要求5所述的方法，其特征在于，所述根据所述每个词语出现的次数和所述全部词语出现的总次数，计算所述每个词语在所述目标用户意图下的生成概率，包括：
计算目标词语出现的次数与所述全部词语出现的总次数之间的比值，将所述比值作为所述目标词语在所述目标用户意图下的生成概率，所述目标词语为所述全部词语中的任意一个。

7.根据权利要求5或所述的方法，其特征在于，所述根据所述特征信息，计算所述语料数据的多样性分值，包括：
统计分词后的全部词语的词语个数；
以所述全部词语的词语个数和所述每个词语的生成概率为参数，采用预设的信息熵公式计算所述目标用户意图的多样性分值；
根据多个目标用户意图的多样性分值，确定所述语料数据的多样性分值。

8.根据权利要求7所述的方法，其特征...

【专利技术属性】
技术研发人员：邓东，张晴，舒昌文，周元甲，曾春亮，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人