一种长文本实体识别方法、装置、计算机设备及介质制造方法及图纸

技术编号:38760030 阅读:19 留言:0更新日期:2023-09-10 09:44
本发明专利技术涉及数据处理技术领域,尤其涉及一种长文本实体识别方法、装置、计算机设备及介质,方法包括:获取N个长文本数据作为训练样本,每个长文本数据的实体内容均有标注实体类型;将每个长文本数据截取为M个文段;将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,改进的Roberta模型包括编码层、加性注意力层以及分类层,编码层用于对每个文段进行编码,得到每个文段的编码信息,加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息;获取待识别文本,并基于该识别模型,得到待识别文本的实体内容及实体类别;提高了长文本实体识别的准确性。高了长文本实体识别的准确性。高了长文本实体识别的准确性。

【技术实现步骤摘要】
一种长文本实体识别方法、装置、计算机设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及一种长文本实体识别方法、装置、计算机设备及介质。

技术介绍

[0002]对于长文本实体识别时,常规的方法是采用暴力截断或者利用标点符号进行截断以达到语言模型对输入文本长度的限制,这种截取方法无法避免在实体名称与实体内容之间间隔较长的情况,比如,对于标书类型的长文本来说,在该长文本中提及了中标单位和相关的参与投标的单位,在1000个字之后,才提及某某单位的项目经理是谁,但是,采用上述的截断方式,无法将中标单位项目经理和具体的某某项目单位项目经理的人名之间建立关系,因此,采用上述的识别方法,无法对长文本的实体内容有效识别。
[0003]因此,如何提高长文本实体识别的准确性是目前亟待解决的技术问题。

技术实现思路

[0004]鉴于上述问题,本专利技术提供了一种克服上述问题或者至少部分地解决上述问题的长文本实体识别方法、装置、计算机设备及介质。
[0005]第一方面,本专利技术提供了一种长文本实体识别方法,包括:获取N个长文本数据作为训练样本,其中,所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型;将每个长文本数据截取为M个文段;将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,所述改进的Roberta模型包括编码层、加性注意力层以及分类层,其中,所述编码层用于对每个文段进行编码,得到每个文段的编码信息,所述加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息,所述分类层用于基于每个文段的编码矩阵,得到分类结果;获取待识别文本;基于所述待识别文本和所述识别模型,得到所述待识别文本的实体内容及实体类别。
[0006]优选地,所述将每个长文本数据截取为M个文段,包括:采用滑动窗口方式将每个长文本数据截取为M个文段,其中,相邻文段之间有交叉内容。
[0007]优选地,所述改进的Roberta模型还包括对抗训练层,用于对训练样本增加对抗样本。
[0008]优选地,所述加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,每个文段的编码矩阵包含当前文段的编码和之前文段的编码,包括:所述加性注意力层用于基于第一文段的第一编码信息,初始化一个全零矩阵,并
将所述第一编码信息更新至所述全零矩阵中,得到第一文段的第一编码矩阵;所述加性注意力层用于基于第二文段的第二编码信息、第一编码矩阵,以及第二编码信息与第一编码矩阵之间的相似度,得到第二文段的第二编码矩阵;所述加性注意力层用于基于第i文段的第i编码信息、第i

1文段的第i

1编码矩阵,以及第i编码信息与第i

1编码矩阵之间的相似度,得到第i文段的第i编码矩阵,直至得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息。
[0009]优选地,所述加性注意力层用于基于第i文段的第i编码信息、第i

1文段的第i

1编码矩阵,以及第i编码信息与第i

1编码矩阵之间的相似度,得到第i文段的第i编码矩阵,包括:所述加性注意力层用于基于第i编码信息和第i

1编码矩阵,确定第i编码信息与第i

1编码矩阵之间的相似度,具体按照如下公式得到:,其中,为相似度,为非线性激活函数,、、均为模型可学习参数,为第i编码信息,为第i

1编码矩阵;基于第i编码信息、第i

1编码矩阵以及第i编码信息与第i

1编码矩阵之间的相似度,得到第i文段的第i编码矩阵,具体按照如下公式得到:,其中,为第i文段的第i编码矩阵。
[0010]优选地,所述改进的Roberta模型还包括:解码层,用于对所述分类层输出的分类结果进行解码。
[0011]优选地,所述实体内容包括:人名、地点、机构名称、时间日期和专有名词。
[0012]第二方面,本专利技术还提供了一种长文本实体识别装置,包括:第一获取模块,用于获取N个长文本数据作为训练样本,其中,所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型;截取模块,用于将每个长文本数据截取为M个文段;训练模块,用于将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,所述改进的Roberta模型包括编码层、加性注意力层以及分类层,其中,所述编码层用于对每个文段进行编码,得到每个文段的编码信息,所述加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码和之前文段的编码,所述分类层用于对每个文段的实体内容进行分类,得到分类结果;第二获取模块,用于获取待识别文本;得到模块,用于基于所述待识别文本和所述识别模型,得到所述待识别文本的实体内容及实体类别。
[0013]第三方面,本专利技术还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面中所述的方法步骤。
[0014]第四方面,本专利技术还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中所述的方法步骤。
[0015]本专利技术实施例中的一个或多个技术方案,至少具有如下技术效果或优点:本专利技术提供了一种长文本实体识别方法,包括:获取N个长文本数据作为训练样本,其中,N个长文本数据中每个长文本数据的实体内容均有标注实体类型;将每个长文本数据截取为M个文段;将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,该改进的Roberta模型包括编码层、加性注意力层以及分类层,其中,编码层用于对每个文段进行编码,得到每个文段的编码信息,加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息,该分类层用于对每个文段的实体内容进行分类,得到分类结果;获取待识别文本;基于待识别文本和该识别模型,得到待识别文本的实体内容及实体类别;进而避免由于实体名称与实体内容间隔较长内容,无法清楚识别的问题,通过对每个长本数据的每个文段编码,并将每一文段与之前文段建立关联,以便于后期的分类识别,进而提高了长文本实体识别的准确性。
附图说明
[0016]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考图形表示相同的部件。在附图中:图1示出了本专利技术实施例中长文本实体识别方法的步骤流程示意图;图2示出了本专利技术实施例中长文本实体识别装置的结构示意图;图3示出了本专利技术实施例中实现长文本实体识别方法的计算机设备的示意图;图中标号:201<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种长文本实体识别方法,其特征在于,包括:获取N个长文本数据作为训练样本,其中,所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型;将每个长文本数据截取为M个文段;将每个长文本数据的M个文段输入改进的Roberta模型中进行训练,得到识别模型,所述改进的Roberta模型包括编码层、加性注意力层以及分类层,其中,所述编码层用于对每个文段进行编码,得到每个文段的编码信息,所述加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息,所述分类层用于基于每个文段的编码矩阵,得到分类结果;获取待识别文本;基于所述待识别文本和所述识别模型,得到所述待识别文本的实体内容及实体类别。2.如权利要求1所述的方法,其特征在于,所述将每个长文本数据截取为M个文段,包括:采用滑动窗口方式将每个长文本数据截取为M个文段,其中,相邻文段之间有交叉内容。3.如权利要求1所述的方法,其特征在于,所述改进的Roberta模型还包括对抗训练层,用于对训练样本增加对抗样本。4.如权利要求1所述的方法,其特征在于,所述加性注意力层用于基于每个文段的编码信息,得到每个文段的编码矩阵,每个文段的编码矩阵包含当前文段的编码和之前文段的编码,包括:所述加性注意力层用于基于第一文段的第一编码信息,初始化一个全零矩阵,并将所述第一编码信息更新至所述全零矩阵中,得到第一文段的第一编码矩阵;所述加性注意力层用于基于第二文段的第二编码信息、第一编码矩阵,以及第二编码信息与第一编码矩阵之间的相似度,得到第二文段的第二编码矩阵;所述加性注意力层用于基于第i文段的第i编码信息、第i

1文段的第i

1编码矩阵,以及第i编码信息与第i

1编码矩阵之间的相似度,得到第i文段的第i编码矩阵,直至得到每个文段的编码矩阵,使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息。5.如权利要求1所述的方法,其特征在于,所述加性注意力层用于基于第i文段的第i编码信息、第i

1文段的第i

1编码矩阵,以及第i编码信息与...

【专利技术属性】
技术研发人员:张森黄学涛陈阳谭卓许云侠唐平盛润唐明建畅敏温小波
申请(专利权)人:四川隧唐科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1