语料数据处理方法、装置、服务器和存储介质制造方法及图纸

技术编号:24331201 阅读:14 留言:0更新日期:2020-05-29 19:39
本申请实施例适用于人工智能技术领域,提供了一种语料处理方法、装置、服务器和存储介质,所述方法包括:获取待处理的语料数据;提取所述语料数据的特征信息;根据所述特征信息,计算所述语料数据的多样性分值;根据所述多样性分值,对所述语料数据进行处理。上述方法可以有效地评估开发者定义的用户说法的多样性,便于开发者在配置技能时提供更丰富的说法数据,有助于提高技能质量,减少技能审核周期,提升技能整体开发周期,可以应用于自然语言处理等领域,尤其是在对话系统的数据预处理阶段应用本方法,可以提高后续语言理解、分析的效率和准确率。

【技术实现步骤摘要】
语料数据处理方法、装置、服务器和存储介质
本申请属于人工智能
,尤其涉及一种语料数据处理方法、装置、服务器和存储介质。
技术介绍
对话系统是交互式人工智能(ArtificialIntelligence,AI)的一个重要研究方向,其在工业领域中也有重要的应用。智能虚拟助手(IntelligentVirtualAssistant,IVA)或语音助手(VoiceAssistant,VA)可以针对用户的语音询问进行分析和识别,然后执行相应的操作以满足用户的要求。例如,在智能车载终端中,对司机的语音进行检测,识别司机播放音乐、查阅热点新闻等需求;在智能家居系统中,对用户的语音命令进行检测,识别用户播放电视剧、打扫室内卫生等需求。在实际应用中,对话系统依然是一个具有挑战性的课题,主要问题包括外部噪音对用户语音的干扰、自然语言理解的准确性、对话上下文管理等。其中,自然语音理解(NaturalLanguageUnderstanding,NLU)是影响对话系统智能程度非常重要的一部分。但是,由于用户在表达同一个意图时,往往会有各种各样的表达方式,这给对话系统正确理解用户意图带来了很大的阻碍。目前,众多商业公司为开发者提供了技能平台(Bot平台),以方便开发者为用户提供“语音交互”能力,但由于用户缺乏对话系统的专业知识,用户在配置技能时往往会漏掉很多的用户说法或句式,导致用户定义的语音技能效果不佳。因此,提升Bot平台中的用户说法多样性或丰富度,是提升“语音交互”能力的关键。
技术实现思路
本申请实施例提供了一种语料数据处理方法、装置、服务器和存储介质,可以提升Bot平台中的用户说法多样性。第一方面,本申请实施例提供了一种语料数据处理方法,包括:获取待处理的语料数据;提取所述语料数据的特征信息;根据所述特征信息,计算所述语料数据的多样性分值;根据所述多样性分值,对所述语料数据进行处理。示例性的,所述获取待处理的语料数据,包括:获取用户输入的原始语料数据;对所述原始语料数据进行数据清洗,获得待处理的语料数据。通过数据清洗等预处理过程,可以减少无关词语或符号对于特征提取及后续多样性分值计算所造成的干扰。示例性的,所述对所述原始语料数据进行数据清洗,获得待处理的语料数据,包括:识别所述原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称;将具有相同槽位名称的词语替换为对应的槽位名称;识别并删除所述原始语料数据中的停用词,获得待处理的语料数据。示例性的,所述特征信息包括所述语料数据中每个词语的生成概率;所述提取所述语料数据的特征信息,包括:识别所述语料数据包含的至少一个用户意图;确定每个用户意图包含的用户语句;根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率。通过采用基于数据驱动的语言模型计算词语生成概率,可以有效地提取出用户说法中每个词语的概率分布情况,有助于后续多样性分值计算的准确性。示例性的,所述根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率,包括:对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;分别统计分词后的每个词语出现的次数;以及,统计分词后的全部词语出现的总次数;根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率。示例性的,所述根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率,包括:计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个。示例性的,所述根据所述特征信息,计算所述语料数据的多样性分值,包括:统计分词后的全部词语的词语个数;以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值。通过借助信息熵计算得到语料数据中包含的每个用户意图的多样性分值,进而确定出语料数据的多样性分值,用于评价语料数据的多样性,能够有效地对语料数据的多样性进行量化,便于开发者和Bot平台的审核人员直观地了解当前提供的语料数据是否丰富。示例性的,所述根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值,包括:统计每个目标用户意图包含的用户语句的语句数量,以及统计全部目标用户意图包含的全部用户语句的语句总数量;计算所述每个目标用户意图包含的用户语句的语句数量与所述语句总数量之间的比值,将所述比值分别作为对应的目标用户意图的权重值;根据所述每个目标用户意图的权重值,对所述每个目标用户意图的多样性分值进行加权求和,得到所述语料数据的多样性分值。示例性的,在根据所述特征信息,计算所述语料数据的多样性分值之后,还包括:接收用户针对多份样本语料数据分别进行标注的标注信息,所述标注信息包括第一信息或第二信息;将具有相同标注信息的样本语料数据汇集在同一个集合中,获得第一集合和第二集合;根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值。根据样本语料数据的多样性分值确定用于比较多样性是否丰富的阈值,可以有效地保证确定出的阈值的准确性。示例性的,所述根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值,包括:计算所述第一集合中的样本语料数据的多样性分值的分值下界;以及,计算所述第二集合中的样本语料数据的多样性分值的分值上界;计算所述分值下界与所述分值上界的平均值,将所述平均值作为所述多样性评分阈值。示例性的,所述根据所述多样性分值,对所述语料数据进行处理,包括:若所述语料数据的多样性分值大于或等于所述多样性评分阈值,则可以判定用户配置的语料数据多样性足够,可以对所述语料数据及其对应的交互技能进行其他处理;若所述语料数据的多样性分值小于所述多样性评分阈值,则提示所述用户对所述语料数据进行更改或补充,提升语料多样性。通过与多样性评分阈值进行比较,能够快速地判断出当前技能所提供的用户说法是否丰富。第二方面,本申请实施例提供了一种语料数据处理装置,包括:语料数据获取模块,用于获取待处理的语料数据;特征信息提取模块,用于提取所述语料数据的特征信息;多样性分值计算模块,用于根据所述特征信息,计算所述语料数据的多样性分值;语料数据处理模块,用于根据所述多样性分值,对所述语料数据进行处理。第三方面,本申请实施例提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的语料数据处理方法。第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被服务器的处理器执行时实现上述第一方面中任一本文档来自技高网...

【技术保护点】
1.一种语料数据处理方法,其特征在于,包括:/n获取待处理的语料数据;/n提取所述语料数据的特征信息;/n根据所述特征信息,计算所述语料数据的多样性分值;/n根据所述多样性分值,对所述语料数据进行处理。/n

【技术特征摘要】
1.一种语料数据处理方法,其特征在于,包括:
获取待处理的语料数据;
提取所述语料数据的特征信息;
根据所述特征信息,计算所述语料数据的多样性分值;
根据所述多样性分值,对所述语料数据进行处理。


2.根据权利要求1所述的方法,其特征在于,所述获取待处理的语料数据,包括:
获取用户输入的原始语料数据;
对所述原始语料数据进行数据清洗,获得待处理的语料数据。


3.根据权利要求2所述的方法,其特征在于,所述对所述原始语料数据进行数据清洗,获得待处理的语料数据,包括:
识别所述原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称;
将具有相同槽位名称的词语替换为对应的槽位名称;
识别并删除所述原始语料数据中的停用词,获得待处理的语料数据。


4.根据权利要求1-3任一项所述的方法,其特征在于,所述特征信息包括所述语料数据中每个词语的生成概率;
相应的,所述提取所述语料数据的特征信息,包括:
识别所述语料数据包含的至少一个用户意图;
确定每个用户意图包含的用户语句;
根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率。


5.根据权利要求4所述的方法,其特征在于,所述根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率,包括:
对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;
分别统计分词后的每个词语出现的次数;以及,
统计分词后的全部词语出现的总次数;
根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率。


6.根据权利要求5所述的方法,其特征在于,所述根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率,包括:
计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个。


7.根据权利要求5或所述的方法,其特征在于,所述根据所述特征信息,计算所述语料数据的多样性分值,包括:
统计分词后的全部词语的词语个数;
以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;
根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值。


8.根据权利要求7所述的方法,其特征...

【专利技术属性】
技术研发人员:邓东张晴舒昌文周元甲曾春亮
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1