一种长文本实体识别方法、装置、计算机设备及介质制造方法及图纸

技术编号：38760030 阅读：19 留言：0更新日期：2023-09-10 09:44

本发明专利技术涉及数据处理技术领域，尤其涉及一种长文本实体识别方法、装置、计算机设备及介质，方法包括：获取N个长文本数据作为训练样本，每个长文本数据的实体内容均有标注实体类型；将每个长文本数据截取为M个文段；将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，改进的Roberta模型包括编码层、加性注意力层以及分类层，编码层用于对每个文段进行编码，得到每个文段的编码信息，加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息；获取待识别文本，并基于该识别模型，得到待识别文本的实体内容及实体类别；提高了长文本实体识别的准确性。高了长文本实体识别的准确性。高了长文本实体识别的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种长文本实体识别方法、装置、计算机设备及介质

[0001]本专利技术涉及数据处理
，尤其涉及一种长文本实体识别方法、装置、计算机设备及介质。

技术介绍

[0002]对于长文本实体识别时，常规的方法是采用暴力截断或者利用标点符号进行截断以达到语言模型对输入文本长度的限制，这种截取方法无法避免在实体名称与实体内容之间间隔较长的情况，比如，对于标书类型的长文本来说，在该长文本中提及了中标单位和相关的参与投标的单位，在1000个字之后，才提及某某单位的项目经理是谁，但是，采用上述的截断方式，无法将中标单位项目经理和具体的某某项目单位项目经理的人名之间建立关系，因此，采用上述的识别方法，无法对长文本的实体内容有效识别。
[0003]因此，如何提高长文本实体识别的准确性是目前亟待解决的技术问题。

技术实现思路

[0004]鉴于上述问题，本专利技术提供了一种克服上述问题或者至少部分地解决上述问题的长文本实体识别方法、装置、计算机设备及介质。
[0005]第一方面，本专利技术提供了一种长文本实体识别方法，包括：获取N个长文本数据作为训练样本，其中，所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型；将每个长文本数据截取为M个文段；将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，所述改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，所述编码层用于对每个文段进行编码，得到每个文段的编码信息，所述加性注意力层用于基于每个文段的编码信息，得到每...

【技术保护点】

【技术特征摘要】
1.一种长文本实体识别方法，其特征在于，包括：获取N个长文本数据作为训练样本，其中，所述N个长文本数据中每个长文本数据的实体内容均有标注实体类型；将每个长文本数据截取为M个文段；将每个长文本数据的M个文段输入改进的Roberta模型中进行训练，得到识别模型，所述改进的Roberta模型包括编码层、加性注意力层以及分类层，其中，所述编码层用于对每个文段进行编码，得到每个文段的编码信息，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息，所述分类层用于基于每个文段的编码矩阵，得到分类结果；获取待识别文本；基于所述待识别文本和所述识别模型，得到所述待识别文本的实体内容及实体类别。2.如权利要求1所述的方法，其特征在于，所述将每个长文本数据截取为M个文段，包括：采用滑动窗口方式将每个长文本数据截取为M个文段，其中，相邻文段之间有交叉内容。3.如权利要求1所述的方法，其特征在于，所述改进的Roberta模型还包括对抗训练层，用于对训练样本增加对抗样本。4.如权利要求1所述的方法，其特征在于，所述加性注意力层用于基于每个文段的编码信息，得到每个文段的编码矩阵，每个文段的编码矩阵包含当前文段的编码和之前文段的编码，包括：所述加性注意力层用于基于第一文段的第一编码信息，初始化一个全零矩阵，并将所述第一编码信息更新至所述全零矩阵中，得到第一文段的第一编码矩阵；所述加性注意力层用于基于第二文段的第二编码信息、第一编码矩阵，以及第二编码信息与第一编码矩阵之间的相似度，得到第二文段的第二编码矩阵；所述加性注意力层用于基于第i文段的第i编码信息、第i
‑
1文段的第i
‑
1编码矩阵，以及第i编码信息与第i
‑
1编码矩阵之间的相似度，得到第i文段的第i编码矩阵，直至得到每个文段的编码矩阵，使得每个文段的编码矩阵包含当前文段的编码信息和之前文段的编码信息。5.如权利要求1所述的方法，其特征在于，所述加性注意力层用于基于第i文段的第i编码信息、第i
‑
1文段的第i
‑
1编码矩阵，以及第i编码信息与...

【专利技术属性】
技术研发人员：张森，黄学涛，陈阳，谭卓，许云侠，唐平，盛润，唐明建，畅敏，温小波，
申请(专利权)人：四川隧唐科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人