语料扩充方法、装置、设备和存储介质制造方法及图纸

技术编号：37056117 阅读：12 留言：0更新日期：2023-03-29 19:33

本发明专利技术公开了一种语料扩充方法、装置、设备和存储介质，包括：在接收到请求语料后，将请求语料转换成请求拼音语料；从历史语料库中召回与请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料；利用n

全部详细技术资料下载

【技术实现步骤摘要】
语料扩充方法、装置、设备和存储介质

[0001]本专利技术属于自然语言处理
，具体涉及一种语料扩充方法、装置、设备和存储介质。

技术介绍

[0002]对于现有的各种智能问答系统，意图识别、实体识别等是其中重要的环节。然而，智能问答系统的语言模型通常需要较大的训练语料，若训练语料不足时，会影响语言模型的识别准确度，尤其是用户在使用拼音输入法时，可能会产生拼音相似的字、词，导致真实的意图或实体不能被有效地识别出来。
[0003]因此，如何实现对语言模型的训练语料进行扩充，提高算法模型的泛化能力和准确性，是本领域技术人员亟待解决的技术问题。

技术实现思路

[0004]本专利技术的主要目的是提供一种语料扩充方法、装置、设备和存储介质，以解决现有技术中因训练语料不足，导致智能问答系统的语言模型泛化能力和准确性较低的技术问题。
[0005]针对上述问题，本专利技术提供了一种语料扩充方法，其特征在于，包括：
[0006]在接收到请求语料后，将所述请求语料转换成请求拼音语料；
[0007]从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料；
[0008]利用n
‑
gram分词方法，对所述目标历史语料进行分词，得到多个分词语料；
[0009]将每个所述分词语料分别换成对应的分词拼音语料；
[0010]确定每个所述分词拼音语料与所述请求拼音语料之间的相似度；
[0011]选取相似度大于预设阈值的目标分词拼音...

【技术保护点】

【技术特征摘要】
1.一种语料扩充方法，其特征在于，包括：在接收到请求语料后，将所述请求语料转换成请求拼音语料；从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料；利用n
‑
gram分词方法，对所述目标历史语料进行分词，得到多个分词语料；将每个所述分词语料分别换成对应的分词拼音语料；确定每个所述分词拼音语料与所述请求拼音语料之间的相似度；选取相似度大于预设阈值的目标分词拼音语料对应的目标分词语料作为扩充语料。2.根据权利要求1所述的语料扩充方法，其特征在于，从历史语料库中召回与所述请求拼音语料相匹配的目标历史拼音语料对应的目标历史语料作为召回语料之前，还包括：将获取的历史语料转换为历史拼音语料；将所述历史拼音语料与所述历史语料进行关联后，存储至所述历史语料库。3.根据权利要求1所述的语料扩充方法，其特征在于，利用n
‑
gram分词方法，对所述召回语料进行分词，得到多个分词语料之前，还包括：获取所述请求语料的长度；基于所述请求语料的长度，设定所述n
‑
gram分词方法中n的数值。4.根据权利要求1所述的语料扩充方法，其特征在于，所述历史语料库基于ES引擎构建。5.根据权利要求1所述的语料扩充方法，其特征在于，确定每个所述分词拼音语料与所述请求拼音语料之间的相似度，包括：基于预设的相似度算法，确定每个所述分词拼音语料与所述请求拼音语料之间的相似度；其中，所述相似度算法包括余弦相似度算法、距...

【专利技术属性】
技术研发人员：贾敬伍，马超，蒋宁，
申请(专利权)人：北京中关村科金技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人