用于生成预标注样本的方法、装置、服务器和介质制造方法及图纸

技术编号：33736207 阅读：21 留言：0更新日期：2022-06-08 21:33

本公开的实施例公开了用于生成预标注样本的方法、装置、服务器和介质。该方法的一具体实施方式包括：获取预设标注数据库，其中，该预设标注数据库中记录有问题文本与场景之间的对应关系；获取待进行预标注的多轮场景定位数据，其中，该多轮场景定位数据中包括至少一个问句与对应的场景；将该多轮场景定位数据中的至少一个问句与该预设标注数据库中的问题文本进行匹配，将匹配的问题文本对应的场景确定为匹配场景；根据所确定的匹配场景与进行匹配的至少一个问句对应的场景，基于该多轮场景定位数据生成正、负样本均衡的预标注样本。该实施方式实现了正、负样本均衡的预标注样本的大规模自动生成。规模自动生成。规模自动生成。

全部详细技术资料下载

【技术实现步骤摘要】
用于生成预标注样本的方法、装置、服务器和介质

[0001]本公开的实施例涉及计算机
，具体涉及用于生成预标注样本和预训练模型的方法、装置、服务器和介质。

技术介绍

[0002]随着机器学习技术的发展，预训练模型已经被学术界和工业界成功应用在文本分类、文本匹配、文本生成、机器翻译等多个自然语言处理相关领域的各类任务中。
[0003]现有技术中，预训练模型的参数调整通常需要大量的人工标注数据参与训练才能实现很好的效果。但完全依赖人工去标注大量的样本，既容易导致过高的成本，且难以保证正、负样本数量的均衡。

技术实现思路

[0004]本公开的实施例提出了用于生成预标注样本和用于预训练模型的方法、装置、服务器和介质。
[0005]第一方面，本公开的实施例提供了一种用于生成预标注样本的方法，该方法包括：获取预设标注数据库，其中，预设标注数据库中记录有问题文本与场景之间的对应关系；获取待进行预标注的多轮场景定位数据，其中，多轮场景定位数据中包括至少一个问句与对应的场景；将多轮场景定位数据中的至少一个问句与预设标注数据库中的问题文本进行匹配，将匹配的问题文本对应的场景确定为匹配场景；根据所确定的匹配场景与进行匹配的至少一个问句对应的场景，基于多轮场景定位数据生成正、负样本均衡的预标注样本。
[0006]在一些实施例中，上述获取预设标注数据库，包括：获取预设的数据库，其中，预设的数据库中记录有属于同一场景的语义一致的问题文本；获取单轮匹配数据库，其中，单轮匹配数据库中包括至少两个问题文本与...

【技术保护点】

【技术特征摘要】
1.一种用于生成预标注样本的方法，包括：获取预设标注数据库，其中，所述预设标注数据库中记录有问题文本与场景之间的对应关系；获取待进行预标注的多轮场景定位数据，其中，所述多轮场景定位数据中包括至少一个问句与对应的场景；将所述多轮场景定位数据中的至少一个问句与所述预设标注数据库中的问题文本进行匹配，将匹配的问题文本对应的场景确定为匹配场景；根据所确定的匹配场景与进行匹配的至少一个问句对应的场景，基于所述多轮场景定位数据生成正、负样本均衡的预标注样本。2.根据权利要求1所述的方法，其中，所述获取预设标注数据库，包括：获取预设的数据库，其中，所述预设的数据库中记录有属于同一场景的语义一致的问题文本；获取单轮匹配数据库，其中，所述单轮匹配数据库中包括至少两个问题文本与用于表征所述至少两个问题文本语义是否一致的标注信息；根据所述单轮匹配数据库对所述预设的数据库进行扩充，生成所述预设标注数据库。3.根据权利要求1所述的方法，其中，所述将所述多轮场景定位数据中的至少一个问句与所述预设标注数据库中的问题文本进行匹配，将匹配的问题文本对应的场景确定为匹配场景，包括：将所述多轮场景定位数据中的至少一个问句确定为多条件检索的至少一个查询词；将所述预设标注数据库中与所确定的至少一个查询词匹配的问题文本对应的场景确定为匹配场景。4.根据权利要求3所述的方法，其中，所述将所述预设标注数据库中与所确定的至少一个查询词匹配的问题文本对应的场景确定为匹配场景，包括：利用与线上应用相一致的搜索引擎构建的索引对所述预设标注数据库中的预设标注数据进行召回，其中，所述预设标注数据包括问题文本与场景之间的对应关系；利用预先训练的匹配模型从召回结果中确定与所述至少一个查询词匹配的场景作为匹配场景。5.根据权利要求1
‑
4之一所述的方法，其中，所述根据所确定的匹配场景与进行匹配的至少一个问句对应的场景，基于所述多轮场景定位数据生成正、负样本均衡的预标注样本，包括：根据所确定的匹配场景与进行匹配的至少一个问句对...

【专利技术属性】
技术研发人员：宋双永，吴良庆，何晓冬，
申请(专利权)人：京东科技信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人