一种基于预训练模型的招投标数据命名实体识别方法技术

技术编号：29758841 阅读：17 留言：0更新日期：2021-08-20 21:12

本发明专利技术涉及一种基于预训练模型的招投标数据命名实体识别方法，具体包括如下步骤：S1：获取开源预训练模型；S2：获取无标注语料，进行数据预处理；S3：训练S1中的预训练模型；S4：使用标注数据有监督训练，得到基准模型M；S5：使基准模型M对无标注数据进行预测得到伪标签数据；S6：将伪标签数据加入训练集，将真实标签数据也加入到训练集中共同训练得到模型M

全部详细技术资料下载

【技术实现步骤摘要】
一种基于预训练模型的招投标数据命名实体识别方法
本专利技术涉及招投标文本处理领域，尤其涉及一种基于预训练模型的招投标数据命名实体识别方法。
技术介绍
招投标数据是招标人公开的招标公告信息或投标、中标公告信息。在招投标数据中，数据文本长度往往较长（整篇平均长度在1500字以上），文本中实体类型多粒度细（如时间实体还可以分为投标开始时间、投标截止时间、开标时间）。提取招投标实体数据对分析某区域某时间段内的招标需求或中标信息等有至关重要的作用，是一项新兴的业务需求。希望提取出招投标数据中的命名实体信息，最直接的想法便是利用自然语言处理技术中的命名实体识别相关的技术。命名实体识别是自然语言处理领域重要的子任务之一，其任务是抽取文本数据中的命名实体数据，如人名、地名、时间等，这些实体数据将是下游任务如关系抽取、对话、问答系统等重要的数据基础，也是构建知识图谱的必要数据，同时这类技术也被广泛应用于各类人工智能技术中。目前常用的实体识别的方法，主要有基于传统的统计机器学习方法和深度学习方法。前者如使用机器学习中的HMM（隐马尔可夫模型）、MEMM（最大熵马尔可夫模型）、CRF（条件随机场）等模型直接对标注文本序列建模，需要人工提取文本中的特征，难度很大，且此类方法在需要语义及上下文理解的实体上表现欠佳。深度学习方法可以自动提取文本中的特征而且效果明显好于传统的统计学习方法，RNN结构的深度学习模型利用了文本序列化的特点，使模型可以学习到远距离的语义信息，如一个非常典型的深度学习模型加上机器学习模型解码的模型，LST...

【技术保护点】
1.一种基于预训练模型的招投标数据命名实体识别方法，其特征在于：具体包括如下步骤：/nS1：获取一个已训练的开源预训练模型；/nS2：获取招投标领域无标注语料，进行数据预处理及数据清洗；/nS3：使用经S2处理的无标注数据，进一步训练S1中的预训练模型得到领域预训练模型；/nS4：选取部分数据进行人工标注，使用有标注数据有监督训练经S3处理的预训练模型，得到一个基准模型M；/nS5：使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标签数据；/nS6：将S5中的伪标签数据加入训练集，赋予伪标签数据一个动态可学习权重；同时，将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M

【技术特征摘要】
1.一种基于预训练模型的招投标数据命名实体识别方法，其特征在于：具体包括如下步骤：
S1：获取一个已训练的开源预训练模型；
S2：获取招投标领域无标注语料，进行数据预处理及数据清洗；
S3：使用经S2处理的无标注数据，进一步训练S1中的预训练模型得到领域预训练模型；
S4：选取部分数据进行人工标注，使用有标注数据有监督训练经S3处理的预训练模型，得到一个基准模型M；
S5：使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标签数据；
S6：将S5中的伪标签数据加入训练集，赋予伪标签数据一个动态可学习权重；同时，将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M'；
S7：构建一个片段解码网络，用于接收模型M'的输出，所述片段解码网络包括开头指针网络层和结尾指针网络层，进一步训练模型M'；
S8：将文本输入模型M'进行编码，得到文本编码；
S9：将文本编码输入片段解码网络；
S10：根据开头指针网络层和结尾指针网络层标注出实体的开头和结尾，并对实体类别进行分类，根据开头位置、结尾位置以及类别标签即可提取实体片段及其类别，作为输出的预测的实体结果。

2.根据权利要求1所述的基于预训练模型的招投标数据命名实体识别方法，其特征在于，S6中，权重在模型训练过程根据损失函数进行动态的调整，如公式（1）所示：
损失函数loss=（1-α）*loss（真实标签数据）+α*loss（伪标签数据）（1）。

3.根据权利要求2所述的基于预训练模型的招投标数据命名实体识别方法，其...

【专利技术属性】
技术研发人员：刘洋，
申请(专利权)人：湖南达德曼宁信息技术有限公司，
类型：发明
国别省市：湖南;43

全部详细技术资料下载我是这个专利的主人