语料处理方法及相关装置制造方法及图纸

技术编号:22308295 阅读:28 留言:0更新日期:2019-10-16 08:24
本申请实施例公开了一种语料处理方法及相关装置,方法包括:获取第一原始语料;对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。本申请有利于提高语料扩充系统进行提高语料扩充的效率和准确度。

Corpus processing methods and related devices

【技术实现步骤摘要】
语料处理方法及相关装置
本申请涉及电子设备
,具体涉及一种语料处理方法及相关装置。
技术介绍
随着计算机的快速发展,计算机自然语言处理作为一门重要的技术也渗入了人们的生活中。比如目前的语音交互软件,问答系统,聊天机器人在现实生活中的使用越来越多,他们已成为自然语言处理领域研究的热点。这些系统和软件都旨在让系统或者机器理解人的语言,并给出对应的回答。而这些聊天类的系统特别依赖自然语言处理技术和人工编写的语料库。所以聊天系统中,语料库的构建和扩充变得至关重要。
技术实现思路
本申请实施例提供了一种语料处理方法及相关装置,以期提高设备进行语料扩充的效率和准确度。第一方面,本申请实施例提供一种语料处理方法,包括:获取第一原始语料;对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。第二方面,本申请实施例提供一种语料处理装置,包括处理单元和通信单元,其中,所述处理单元,用于通过所述通信单元获取第一原始语料;以及用于对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;以及用于从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。第三方面,本申请实施例提供一种电子设备,包括处理器、存储器、通信接口以及一个或多个程序,其中,上述一个或多个程序被存储在上述存储器中,并且被配置由上述处理器执行,上述程序包括用于执行本申请实施例第一方面任一方法中的步骤的指令。第四方面,本申请实施例提供了一种计算机可读存储介质,其中,上述计算机可读存储介质存储用于电子数据交换的计算机程序,其中,上述计算机程序使得计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。第五方面,本申请实施例提供了一种计算机程序产品,其中,上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,上述计算机程序可操作来使计算机执行如本申请实施例第一方面任一方法中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。可以看出,本申请实施例中,语料扩充系统首先获取第一原始语料;其次,对第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,预设语料扩充操作用于在相同语义约束条件下变更第一原始语料的表述形式,最后,从至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的一个或多个第一参考扩充语料作为第一原始语料的最终扩充语料。可见,本申请实施例能够通过预设语料扩充操作对原始语料进行自动扩充,且相同语义约束条件保证语料扩充的准确度,避免因语料扩充不当而引入不符合真实的用户场景的语料数据,有利于提高语料扩充系统进行语料扩充的效率和准确度。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种语料扩充系统的示意图;图2a是本申请实施例提供的一种语料处理方法的流程示意图;图2b是本申请实施例提供的一种孪生网络模型结构示例图;图3本申请实施例提供的一种电子设备的结构示意图;图4本申请实施例提供的一种语料处理装置的功能单元组成框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,图1为一个语料扩充系统100的示意图,该语料扩充系统100包括语料获取装置110、语料扩充装置120和语料筛选装置130,所述语料获取装置110连接所述语料扩充装置120,所述语料扩充装置120连接所述语料筛选装置130,所述语料获取装置110用于获取原始语料并发给语料扩充装置120进行语料扩充,语料扩充装置120用于将处理得到的扩充语料发送给语料筛选装置进行筛选,该语料扩充系统100可以包括集成式单体设备或者多设备,例如包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备,以及各种形式的用户设备(UserEquipment,UE),移动台(MobileStation,MS),终端设备(terminaldevice)等等。现有的语料库的构建方法采用人工构建的方法,其中包括人工整理现有的请求语料,基于现网的语料去筛选和整理,还有基于模板库的语料构建方法。现有方法主要采用人工编写语料库,主要存在如下问题:1)人工编写语料库和模板库的工作量较大,成本较高。2)由于人工编写的语料库覆盖面不全、语料库不足,导致有些场景语境的语料会缺失,导致系统的语义理解给出的答案效果不好。基于此,本申请实施例提出一种语料处理方法以解决上述问题,下面对本申请实施例进行详细介绍。请参阅图2a,图2a是本申请实施例提供了一种语料处理方法的流程示意图,应用于如图1所示的语料扩充系统,如图所示,本语料处理方法包括:S201,语料扩充系统获取第一原始语料。其中,所述第一原始语料包括以下至少一种:系统数据库中的语料,人工编写的一些测试语料,现网筛选过的请求语料,预先设定的符合用户需求的语料等,该第一原始语料具体可以用于验证问答系统中的自动测试用例。S202,所述语料扩充系统对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式。其中,所述语料扩充操作包括以下至少一种:分词替换、分词删除、干扰词的添加、翻译和逆翻译。在本步骤中,所述语料扩充系统对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:所述语料扩充系统对所述第一原始语料进行分词和词性标注,得到分词后的第一原始语料;对所述分词后的第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料。具体实现中,所述语料扩充系统对所述第一原始语料进行分词和词性标注,得到分词后的第一原始语料的具体实现过程可以是:所述语料扩充系统对所述第一原始语料进行分词,得到所述第一原始语料的分词的词序列;根据所述词序列进行词性标注,得到分词后的第一原始语料。其中,所述分词操作和词性标注操作的方法可以使用哈工大的语言技术平台LTP技术得到第一原始语料的语义信息,该语义信息包括分词后得到的词序列和词性标注后得到的词性信息,所述词性信息是指针对分词的词性进行标识的描述信息,该描述信息的具体形式此处不做唯一限定,例如可以使用如表1所示的词性标注集中的“标签”列中的英文字母来实现标识,该本文档来自技高网...

【技术保护点】
1.一种语料处理方法,其特征在于,包括:获取第一原始语料;对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。

【技术特征摘要】
1.一种语料处理方法,其特征在于,包括:获取第一原始语料;对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,所述预设语料扩充操作用于在相同语义约束条件下变更所述第一原始语料的表述形式;从所述至少一个第一参考扩充语料中筛选符合预设条件的一个或多个第一参考扩充语料,将筛选出的所述一个或多个第一参考扩充语料作为所述第一原始语料的最终扩充语料。2.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括分词替换;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:确定所述第一原始语料的至少一个第一原始分词;选取所述至少一个第一原始分词中的一个或多个第一原始分词;对所述一个或多个第一原始分词进行预设分词替换操作,与所述第一原始语料融合处理后得到至少一个第一参考扩充语料,所述预设分词替换操作包括以下至少一种:同音字替换、模糊音替换、同义词替换。3.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括干扰词的添加;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料的用于添加干扰词的目标位置,所述目标位置包括以下至少一种:句前、句中和句末;在所述第一语料的所述目标位置添加对应的干扰词,得到至少一个第一参考扩充语料。4.根据权利要求1所述的方法,其特征在于,所述预设语料扩充操作包括分词删除;所述对所述第一原始语料执行预设语料扩充操作,得到至少一个第一参考扩充语料,包括:确定所述第一原始语料的至少一个第一原始分词的词序列和每个第一原始分词的词性;根据所述词序列和所述每个第一原始分词的词性,确定所述第一原始语料中待删除的一个或多个第一原始分词;根据所述待删除的一个或多个第一原始分词对所述第一原始语料执行分词删除操作,得到至少一个第一参考扩充语料。5.根据权利要求1所述的方法,其特征在于,所述预...

【专利技术属性】
技术研发人员:王丹刘伟路向阳
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1