标注数据扩充方法、装置、计算机设备及存储介质制造方法及图纸

技术编号：36455891 阅读：47 留言：0更新日期：2023-01-25 22:53

本申请公开了一种标注数据扩充方法，应用于搜索技术领域。本申请提供的方法包括：获取第一数量的第一标注数据，所述第一标注数据用于搜索业务模型训练；将所述第一标注数据输入至命名实体识别模型，输出命名实体识别结果数据；根据所述命名实体识别结果从预设数据源中检索得到第一相似度检索结果数据；根据所述第一标注数据从所述预设数据源中检索得到第二相似度检索结果数据；从所述第二相似度检索结果数据中获取符合预设规则的被点击数据，根据所述被点击数据从所述预设数据源中检索得到第三相似度检索结果数据；将所述第一相似度检索结果数据、所述第二相似度检索结果数据和所述第三相似度检索结果数据加入所述业务模型对应的标注数据集合。对应的标注数据集合。对应的标注数据集合。

全部详细技术资料下载

【技术实现步骤摘要】
标注数据扩充方法、装置、计算机设备及存储介质

[0001]本申请涉及搜索
，尤其涉及一种标注数据扩充方法、装置、计算机设备及存储介质。

技术介绍

[0002]自然语言处理(Natural Language Processing，NLP)是集语言学、统计学、计算机科学，人工智能等学科于一体的交叉领域，目标是让计算机能在处理理解人类自然语言的基础上进一步执行结构化输出或语言生成等其他任务。诸如疾病辅助诊断、互动游戏、语音识别、机器翻译、QA问答、对话机器人、阅读理解、文本分类聚类等任务都属于NLP的范畴，在搜索领域也常采用NLP技术解决一些业务问题，例如意图分类、情感识别等具体问题。
[0003]搜索业务的业务模型的训练过程依赖大量标注数据，该标注数据一般来源于点击转化数据或者人工标注数据，例如电商平台的搜索业务的业务模型的训练大量依赖用户的商品搜索结果及商品点击数据，医疗云平台的搜索业务的业务模型的训练大量依赖用户的病例检索结果及病例点击数据。但是在实际开发应用过程中，在搜索业务冷启动或者新模型上线之前，算法工程...

【技术保护点】

【技术特征摘要】
1.一种标注数据扩充方法，其特征在于，包括：获取第一数量的第一标注数据，其中，所述第一标注数据用于目标系统中关于搜索业务的业务模型训练；将所述第一标注数据输入至预设的命名实体识别模型，输出命名实体识别结果数据；根据所述命名实体识别结果从预设数据源中检索得到第一相似度检索结果数据；根据所述第一标注数据从所述预设数据源中检索得到第二相似度检索结果数据，其中，所述第二相似度检索结果数据与所述第一标注数据的相似度在预设第二相似度范围内；从所述第二相似度检索结果数据中获取符合预设规则的被点击数据，根据所述被点击数据从所述预设数据源中检索得到第三相似度检索结果数据，所述第三相似度检索结果数据与所述被点击数据的相似度在预设第三相似度范围内；将所述第一相似度检索结果数据、所述第二相似度检索结果数据和所述第三相似度检索结果数据作为新增标注数据加入所述业务模型对应的标注数据集合。2.根据权利要求1所述的标注数据扩充方法，其特征在于，所述根据所述命名实体识别结果从预设数据源中检索得到第一相似度检索结果数据包括：从所述命名实体识别结果数据中获取所述搜索业务关联的目标名词；使用预设自然语言预处理模型将所述目标名词向量化，得到第二待检索数据；使用预设相似度计算工具计算第一检索匹配数据与所述第二待检索数据的第一相似度，其中，所述第一检索匹配数据是根据所述第二待检索数据检索所述预设数据源中得到的；若所述第一相似度在预设第一相似度范围内，则将所述第一检索匹配数据加入所述第一相似度检索结果数据。3.根据权利要求2所述的标注数据扩充方法，其特征在于，所述从所述命名实体识别结果数据中获取所述搜索业务关联的目标名词之后还包括：使用预设向量引擎工具将所述目标名词向量化，得到第三待检索数据；设置所述向量引擎工具中表示相似度的目标距离度量范围；从所述预设数据源中检索与所述第三待检索数据的距离度量在所述目标距离度量范围内的第二检索匹配数据；将所述第二检索匹配数据加入所述第一相似度检索结果数据。4.根据权利要求1所述的标注数据扩充方法，其特征在于，所述将所述第一相似度检索结果数据、所述第二相似度检索结果数据和所述第三相似度检索结果数据作为新增标注数据加入所述业务模型对应的标注数据集合之前还包括：建立所述第二相似度检索结果数据和所述第三相似度检索结果数据之间的点击对应关系；将所述点击对应关系作为用户点击隐性标注数据加入所述标注数据集合。5.根据权利要求4所述的标注数据扩充方法，其特征在于，所述建立所述第二相似度检索结果数据和所述第三相似度检索结果数据之间的点击对应关系之前还包括：将所述第一相似度检索结果数据、所述第二相似度检索结果数据和所述第三相似度检索结果数据按照相似度进行排序；
根据预设的数据截断值按照相似度从大道小的顺序截取...

【专利技术属性】
技术研发人员：宋锦，
申请(专利权)人：中国平安财产保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人