语料扩充方法、装置、设备和存储介质制造方法及图纸

技术编号:37056117 阅读:12 留言:0更新日期:2023-03-29 19:33
本发明专利技术公开了一种语料扩充方法、装置、设备和存储介质,包括:在接收到请求语料后,将请求语料转换成请求拼音语料;从历史语料库中召回与请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料;利用n

【技术实现步骤摘要】
语料扩充方法、装置、设备和存储介质


[0001]本专利技术属于自然语言处理
,具体涉及一种语料扩充方法、装置、设备和存储介质。

技术介绍

[0002]对于现有的各种智能问答系统,意图识别、实体识别等是其中重要的环节。然而,智能问答系统的语言模型通常需要较大的训练语料,若训练语料不足时,会影响语言模型的识别准确度,尤其是用户在使用拼音输入法时,可能会产生拼音相似的字、词,导致真实的意图或实体不能被有效地识别出来。
[0003]因此,如何实现对语言模型的训练语料进行扩充,提高算法模型的泛化能力和准确性,是本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]本专利技术的主要目的是提供一种语料扩充方法、装置、设备和存储介质,以解决现有技术中因训练语料不足,导致智能问答系统的语言模型泛化能力和准确性较低的技术问题。
[0005]针对上述问题,本专利技术提供了一种语料扩充方法,其特征在于,包括:
[0006]在接收到请求语料后,将所述请求语料转换成请求拼音语料;
[0007]从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料;
[0008]利用n

gram分词方法,对所述目标历史语料进行分词,得到多个分词语料;
[0009]将每个所述分词语料分别换成对应的分词拼音语料;
[0010]确定每个所述分词拼音语料与所述请求拼音语料之间的相似度;
[0011]选取相似度大于预设阈值的目标分词拼音语料对应的目标分词语料作为扩充语料。
[0012]进一步地,上述所述的语料扩充方法中,从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料作为召回语料之前,还包括:
[0013]将获取的历史语料转换为历史拼音语料;
[0014]将所述历史拼音语料与所述历史语料进行关联后,存储至所述历史语料库。
[0015]进一步地,上述所述的语料扩充方法中,利用n

gram分词方法,对所述召回语料进行分词,得到多个分词语料之前,还包括:
[0016]获取所述请求语料的长度;
[0017]基于所述请求语料的长度,设定所述n

gram分词方法中n的数值。
[0018]进一步地,上述所述的语料扩充方法中,所述历史语料库基于ES引擎构建。
[0019]进一步地,上述所述的语料扩充方法中,确定每个所述分词拼音语料与所述请求拼音语料之间的相似度,包括:
[0020]基于预设的相似度算法,确定每个所述分词拼音语料与所述请求拼音语料之间的相似度;
[0021]其中,所述相似度算法包括余弦相似度算法、距离相似度算和杰卡德相似度算法中的至少一种。
[0022]本专利技术还提供了一种语料扩充装置,包括:
[0023]第一转换模块,用于在接收到请求语料后,将所述请求语料转换成请求拼音语料;
[0024]召回模块,用于从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料;
[0025]分词模块,用于利用n

gram分词方法,对所述目标历史语料进行分词,得到多个分词语料;
[0026]第二转换模块,用于将每个所述分词语料分别换成对应的分词拼音语料;
[0027]确定模块,用于确定每个所述分词拼音语料与所述请求拼音语料之间的相似度;
[0028]扩充模块,用于选取相似度大于预设阈值的目标分词拼音语料对应的目标分词语料作为扩充语料。
[0029]进一步地,上述所述的语料扩充装置,还包括:
[0030]第三转换模块,用于将获取的历史语料转换为历史拼音语料;
[0031]存储模块,用于将所述历史拼音语料与所述历史语料进行关联后,存储至所述历史语料库。
[0032]进一步地,上述所述的语料扩充装置中,所述分词模块,还用于:
[0033]获取所述请求语料的长度;
[0034]基于所述请求语料的长度,设定所述n

gram分词方法中n的数值。
[0035]本专利技术还提供了一种语料扩充设备,包括存储器和控制器;
[0036]所述存储器上存储有计算机程序,所述计算机程序被控制器执行时实现如上任一项所述的语料扩充方法的步骤。
[0037]本专利技术还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的语料扩充方法的步骤。
[0038]与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
[0039]本专利技术的语料扩充方法、装置、设备和存储介质,在接收到请求语料后,将所述请求语料转换成请求拼音语料;从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料;利用n

gram分词方法,对所述目标历史语料进行分词,得到多个分词语料;将每个所述分词语料分别换成对应的分词拼音语料;确定每个所述分词拼音语料与所述请求拼音语料之间的相似度;选取相似度大于预设阈值的目标分词拼音语料对应的目标分词语料作为扩充语料,实现了在贴近用户真实用语上,更准确性的召回目标历史语料,且可以对拼写错误的词汇也能有效召回,从而对语言模型的训练语料进行扩充。采用本专利技术的技术方案,能够提高算法模型的泛化能力和准确性。
[0040]本专利技术的其它特征和优点将在随后的说明书中阐述,并且部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
[0041]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0042]图1为本专利技术的语料扩充方法实施例的流程图;
[0043]图2为本专利技术的语料扩充装置实施例的结构示意图;
[0044]图3为本专利技术的语料扩充设备实施例的结构示意图。
具体实施方式
[0045]以下将结合附图及实施例来详细说明本专利技术的实施方式,借此对本专利技术如何应用技术手段来解决技术问题,并达成技术效果的实现过程能充分理解并据以实施。需要说明的是,只要不构成冲突,本专利技术中的各个实施例以及各实施例中的各个特征可以相互结合,所形成的技术方案均在本专利技术的保护范围之内。
[0046]为了解决上述技术问题,本专利技术提供了以下技术方案:
[0047]图1为本专利技术的语料扩充方法实施例的流程图,如图1所示,本实施例的语料扩充方法具体可以包括如下步骤:
[0048]100、在接收到请求语料后,将所述请求语料转换成请求拼音语料;
[0049]在一个具体实现过程中,可以将目标领域的业务标准词汇作为请求语料,在接收到请求语料后,可以将所述请求语料转换成请求拼音语料。
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语料扩充方法,其特征在于,包括:在接收到请求语料后,将所述请求语料转换成请求拼音语料;从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料;利用n

gram分词方法,对所述目标历史语料进行分词,得到多个分词语料;将每个所述分词语料分别换成对应的分词拼音语料;确定每个所述分词拼音语料与所述请求拼音语料之间的相似度;选取相似度大于预设阈值的目标分词拼音语料对应的目标分词语料作为扩充语料。2.根据权利要求1所述的语料扩充方法,其特征在于,从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料作为召回语料之前,还包括:将获取的历史语料转换为历史拼音语料;将所述历史拼音语料与所述历史语料进行关联后,存储至所述历史语料库。3.根据权利要求1所述的语料扩充方法,其特征在于,利用n

gram分词方法,对所述召回语料进行分词,得到多个分词语料之前,还包括:获取所述请求语料的长度;基于所述请求语料的长度,设定所述n

gram分词方法中n的数值。4.根据权利要求1所述的语料扩充方法,其特征在于,所述历史语料库基于ES引擎构建。5.根据权利要求1所述的语料扩充方法,其特征在于,确定每个所述分词拼音语料与所述请求拼音语料之间的相似度,包括:基于预设的相似度算法,确定每个所述分词拼音语料与所述请求拼音语料之间的相似度;其中,所述相似度算法包括余弦相似度算法、距...

【专利技术属性】
技术研发人员:贾敬伍马超蒋宁
申请(专利权)人:北京中关村科金技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1