一种基于预训练模型的招投标数据命名实体识别方法技术

技术编号:29758841 阅读:17 留言:0更新日期:2021-08-20 21:12
本发明专利技术涉及一种基于预训练模型的招投标数据命名实体识别方法,具体包括如下步骤:S1:获取开源预训练模型;S2:获取无标注语料,进行数据预处理;S3:训练S1中的预训练模型;S4:使用标注数据有监督训练,得到基准模型M;S5:使基准模型M对无标注数据进行预测得到伪标签数据;S6:将伪标签数据加入训练集,将真实标签数据也加入到训练集中共同训练得到模型M

【技术实现步骤摘要】
一种基于预训练模型的招投标数据命名实体识别方法
本专利技术涉及招投标文本处理领域,尤其涉及一种基于预训练模型的招投标数据命名实体识别方法。
技术介绍
招投标数据是招标人公开的招标公告信息或投标、中标公告信息。在招投标数据中,数据文本长度往往较长(整篇平均长度在1500字以上),文本中实体类型多粒度细(如时间实体还可以分为投标开始时间、投标截止时间、开标时间)。提取招投标实体数据对分析某区域某时间段内的招标需求或中标信息等有至关重要的作用,是一项新兴的业务需求。希望提取出招投标数据中的命名实体信息,最直接的想法便是利用自然语言处理技术中的命名实体识别相关的技术。命名实体识别是自然语言处理领域重要的子任务之一,其任务是抽取文本数据中的命名实体数据,如人名、地名、时间等,这些实体数据将是下游任务如关系抽取、对话、问答系统等重要的数据基础,也是构建知识图谱的必要数据,同时这类技术也被广泛应用于各类人工智能技术中。目前常用的实体识别的方法,主要有基于传统的统计机器学习方法和深度学习方法。前者如使用机器学习中的HMM(隐马尔可夫模型)、MEMM(最大熵马尔可夫模型)、CRF(条件随机场)等模型直接对标注文本序列建模,需要人工提取文本中的特征,难度很大,且此类方法在需要语义及上下文理解的实体上表现欠佳。深度学习方法可以自动提取文本中的特征而且效果明显好于传统的统计学习方法,RNN结构的深度学习模型利用了文本序列化的特点,使模型可以学习到远距离的语义信息,如一个非常典型的深度学习模型加上机器学习模型解码的模型,LSTM-CRF,一度成为各语种中命名实体识别的主流模型。然而深度学习的方法需要依赖更多的标注数据来训练模型。近期,在深度学习领域,随着自然语言处理预训练语言模型的出现,如GPT、BERT,预训练加上模型微调开始成为主流,此类预训练模型先在大型的语料上进行无监督的预训练,使模型学习到语言的语义信息,并将参数保存在模型中,在下游任务上,只需对有标注的数据进行有监督的微调即可得到下游任务模型,在大多数下游任务都取得了很好的效果。在处理招投标数据中的命名实体提取的任务中,也面临着一些问题和挑战。(1)在招投标数据中,文本数据长度往往较长、实体类型多粒度细,人工标注数据方法需要消耗大量的人力和物力,导致数据量和数据规模很难达到深度学习的需求,所以迫切需要一种能够适应领域数据、充分利用少量标注数据达到较高精度的方法;(2)直接利用传统的深度学习模型或是纯粹基于开源预训练模型加上微调的方法无法利用无标注的数据,且在领域数据上不一定会取得可观的效果;(3)传统的利用CRF进行序列标注识别实体的方式往往带来巨大的时间开销,训练和预测速度受到了很大的影响,难以满足实际业务使用的需求。在招投标数据的命名实体识别任务中,可以利用自然语言处理中的命名实体识别的模型方法进行识别,现行的无预训练模型深度学习方法主要基于CNN(卷积神经网络)、RNN(循环神经网络)网络进行文本编码并加以序列标注框架进行实体标注,虽然模型结构较为简单、轻量快捷,但是由于数据量较少的原因,导致模型训练不够充分,且数据中实体类型较多,最终识别的效果较差,在新数据上存在较多识别错误和无法识别的情况。现行基于预训练模型的实体识别方法主要是基于现有的开源预训练模型对标注数据进行有监督的微调训练,从而得到解决任务的模型的,而实际无标注的数据往往更容易获得,有标注的数据往往非常稀少而珍贵,这类方法对于大量无监督的数据显得无能为力,无法利用无标注数据便无法充分发掘这一部分数据的价值,无法进一步提升效果。传统的模型利用基于CRF的序列标注方法标注出文本中的实体,而后根据标注的结果进行实体的提取。由于CRF考虑全局的文本路径,需要计算所有可能路径的分数,而后根据得分选取最佳路径,所以导致计算开销较大,这类提取方式速度较慢,且容易出现实体边界错误。一方面,现有的针对招投标数据做命名实体提取的模型框架还很匮乏,且有标注的高质量招投标数据非常稀缺。另一方面,招投标数据一般是公开信息,较容易获取,且每天会产生大量的新数据,但获取到的数据常常是原始的纯文本数据,对于有监督的模型将难以把这些无标注的数据利用起来。
技术实现思路
本专利技术的目的是提供一种基于预训练模型的招投标数据命名实体识别方法,构建了针对招投标数据实体抽取的总体框架(从理论上讲此框架方法同样可以扩展到其它特定领域)。本框架基于预训练语言模型加以领域数据进行进一步领域预训练,从而使预训练模型达到增强领域语义理解的效果;采用半监督方式进行预训练模型的微调训练,可以充分利用无标注数据;在预训练模型之后以片段识别方式进行模型解码预测实体的开头和结尾位置从而进行实体识别任务,可以加快解码速度并获得较好精度的实体结果;对最终结果施以人工规则纠偏,使得输出结果更合理,进一步提高了结果精度。为达到上述目的而采用了一种基于预训练模型的招投标数据命名实体识别方法,具体包括如下步骤:S1:获取一个已训练的开源预训练模型;S2:获取招投标领域无标注语料,进行数据预处理及数据清洗;S3:使用经S2处理的无标注数据,进一步训练S1中的预训练模型得到领域预训练模型;S4:选取部分数据进行人工标注,使用有标注数据有监督训练经S3处理的预训练模型,得到一个基准模型M;S5:使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标签数据;S6:将S5中的伪标签数据加入训练集,赋予伪标签数据一个动态可学习权重;同时,将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M'S7:构建一个片段解码网络,用于接收模型M'的输出,所述片段解码网络包括开头网络层和结尾网络层,进一步训练模型M';S8:将文本输入模型M'进行编码,得到文本编码;S9:将文本编码输入片段解码网络;S10:根据开头指针网络层和结尾指针网络层标注出实体的开头和结尾,并对实体类别进行,根据开头位置、结尾位置以及类别标签即可提取实体片段及其类别,作为输出的预测的实体结果。作为本专利技术基于预训练模型的招投标数据命名实体识别方法进一步的改进,S6中,权重在模型训练过程根据损失函数进行动态的调整,如公式(1)所示:损失函数loss=(1-α)*loss(真实标签数据)+α*loss(伪标签数据)(1)作为本专利技术基于预训练模型的招投标数据命名实体识别方法进一步的改进,S7中,训练模型M'的方法为:S7.1:将文本输入至S7中的模型M',进行编码,得到文本编码;S7.2:将S7.1中的文本编码输入片段解码网络;S7.3:根据有标注数据的实体开头和实体结尾,分别计算实体开头损失值和实体结尾损失值并相加,得到训练的损失值,从而调整网络参数;S7.4:迭代S7.3中步骤,直至完成训练。作为本专利技术基于预训练模型的招投标数据命名实体识别方法进一步的改进,还包括:S11:设定规则,根据S10中输出的预测的实体结果,判本文档来自技高网
...

【技术保护点】
1.一种基于预训练模型的招投标数据命名实体识别方法,其特征在于:具体包括如下步骤:/nS1:获取一个已训练的开源预训练模型;/nS2:获取招投标领域无标注语料,进行数据预处理及数据清洗;/nS3:使用经S2处理的无标注数据,进一步训练S1中的预训练模型得到领域预训练模型;/nS4:选取部分数据进行人工标注,使用有标注数据有监督训练经S3处理的预训练模型,得到一个基准模型M;/nS5:使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标签数据;/nS6:将S5中的伪标签数据加入训练集,赋予伪标签数据一个动态可学习权重;同时,将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M

【技术特征摘要】
1.一种基于预训练模型的招投标数据命名实体识别方法,其特征在于:具体包括如下步骤:
S1:获取一个已训练的开源预训练模型;
S2:获取招投标领域无标注语料,进行数据预处理及数据清洗;
S3:使用经S2处理的无标注数据,进一步训练S1中的预训练模型得到领域预训练模型;
S4:选取部分数据进行人工标注,使用有标注数据有监督训练经S3处理的预训练模型,得到一个基准模型M;
S5:使用S4中的基准模型M对无标注数据中的部分随机选取的数据进行预测得到伪标签数据;
S6:将S5中的伪标签数据加入训练集,赋予伪标签数据一个动态可学习权重;同时,将S4中的真实标签数据也加入到训练集中共同训练基准模型M得到模型M';
S7:构建一个片段解码网络,用于接收模型M'的输出,所述片段解码网络包括开头指针网络层和结尾指针网络层,进一步训练模型M';
S8:将文本输入模型M'进行编码,得到文本编码;
S9:将文本编码输入片段解码网络;
S10:根据开头指针网络层和结尾指针网络层标注出实体的开头和结尾,并对实体类别进行分类,根据开头位置、结尾位置以及类别标签即可提取实体片段及其类别,作为输出的预测的实体结果。


2.根据权利要求1所述的基于预训练模型的招投标数据命名实体识别方法,其特征在于,S6中,权重在模型训练过程根据损失函数进行动态的调整,如公式(1)所示:
损失函数loss=(1-α)*loss(真实标签数据)+α*loss(伪标签数据)(1)。


3.根据权利要求2所述的基于预训练模型的招投标数据命名实体识别方法,其...

【专利技术属性】
技术研发人员:刘洋
申请(专利权)人:湖南达德曼宁信息技术有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1