一种基于稠密检索的实体识别自动标注优化方法和系统技术方案

技术编号：41526459 阅读：19 留言：0更新日期：2024-06-03 23:00

本申请涉及一种基于稠密检索的实体识别自动标注优化方法和系统，其中，该方法包括：基于实体知识库，对未标注语料库进行数据的自动标注，得到自动标注样本集合；基于自动标注样本集合中的样本关系，生成用于实体稠密编码模型训练的训练样本集合；通过训练好的实体稠密编码模型，得到自动标注样本集合中实体的实体稠密向量，以及未标注语料库中候选实体的候选实体稠密向量；搜索出与各个候选实体稠密向量相似的实体稠密向量，基于搜索的结果对自动标注样本集合中已标注的候选实体进行标注优化。通过本申请，实现了通过实体稠密编码模型创建向量空间，以此优化自动标注样本的质量，解决了如何提高数据集的自动化标注质量的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，特别是涉及一种基于稠密检索的实体识别自动标注优化方法和系统。

技术介绍

1、命名实体识别（named entity recognition）旨在从文本中识别具有特定意义的语义实体，是知识图谱（knowledge graph）构造以及自然语言相关领域众多应用的基础。传统的命名实体识别方法基于监督学习，现有基于监督学习的方法依赖人工标注数据集，而针对每个领域的实体构造人工标注数据集需要消耗大量的时间和资源。

2、远程监督（distant supervision）是避免人工标注的可靠方法。远程监督利用知识库中已有的事实提供监督，基于知识库和语料库的实体名称匹配自动产生标注数据集，但远程监督方法在产生自动标注数据集的过程中因缺乏约束而导致数据被错误标注，使标注的数据集存在大量噪声。包含噪声的数据直接用于训练将损害模型的性能。

3、目前针对相关技术中如何提高数据集的自动化标注质量的问题，尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种...

【技术保护点】

1.一种基于稠密检索的实体识别自动标注优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述自动标注样本集合中的样本关系，生成用于实体稠密编码模型训练的训练样本集合包括：

3.根据权利要求2所述的方法，其特征在于，基于所述自动标注样本子集，生成用于实体稠密编码模型训练的训练样本集合中的候选实体正例样本包括：

4.根据权利要求2所述的方法，其特征在于，基于所述自动标注样本子集，生成用于实体稠密编码模型训练的训练样本集合中的候选实体反例样本包括：

5.根据权利要求1所述的方法，其特征在于，搜索出与各个候选实体稠...

【技术特征摘要】

1.一种基于稠密检索的实体识别自动标注优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，基于所述自动标注样本集合中的样本关系，生成用于实体稠密编码模型训练的训练样本集合包括：

3.根据权利要求2所述的方法，其特征在于，基于所述自动标注样本子集，生成用于实体稠密编码模型训练的训练样本集合中的候选实体正例样本包括：

4.根据权利要求2所述的方法，其特征在于，基于所述自动标注样本子集，生成用于实体稠密编码模型训练的训练样本集合中的候选实体反例样本包括：

5.根据权利要求1所述的方法，其特征在于，搜索出与各个候选实体稠密向量相似的实体稠密向量，基于所述搜索的结果对所述自动标注样本集合中已标注的候选实体进行标注优化包括：

6.根据权利...

【专利技术属性】
技术研发人员：李海，余金波，奉秋林，
申请(专利权)人：杭州思锐信息技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人