一种基于预训练模型的封闭域信息抽取方法技术

技术编号：40255776 阅读：9 留言：0更新日期：2024-02-02 22:48

本发明专利技术涉及一种基于预训练模型的封闭域信息抽取方法。传统实体抽取方法通常受限于预定义实体类型和规则，限制了其在封闭域场景下的适用性。为应对这一问题，我们引入了创新的标注方法，巧妙利用预训练模型的上下文感知能力，将实体抽取任务转化为序列标注问题，并与Bert等预训练模型相结合。本发明专利技术采用逐词标注方法，通过在大规模文本语料上进行预训练，确定实体的起始和结束位置，从而实现对封闭域信息的准确抽取。在实体抽取的基础上，我们通过将Bert用于实体分类，并进行信息抽取。本发明专利技术的模型能够获取丰富的语言知识和上下文关系，深入理解实体在句子中的语义边界，准确抽取并识别封闭域信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及封闭域信息抽取领域，具体地说，是一种基于预训练模型的封闭域信息抽取方法，本申请利用计算机深度学习和自然语言处理技术，旨在实现对开放域文本中实体和关系的准确抽取。

技术介绍

1、数字教育平台正处于快速发展的阶段，为教育领域带来了深刻变革。这一趋势表现在多个方面，包括个性化学习、在线课程和培训、虚拟现实与增强现实等。同时，信息抽取在数字教育平台在线评估中的封闭域应用也愈发凸显其重要性。信息抽取在平台上的关键作用包括课程内容分析与推荐、学生行为分析、知识图谱构建、自动化评估与反馈、教师辅助工具以及教育政策制定。通过从教材、学生作业、教育政策等文本中抽取关键信息，平台能够更好地理解学习者需求，个性化推荐学习资源，为教育者提供决策支持，进一步提升数字教育平台在线评估的效益和质量。

2、当谈及数字教育平台的发展趋势时，不容忽视的是，数字化技术正引领着教育领域的创新和变革。这一趋势在全球范围内得到广泛应用，不仅为学生提供了更灵活、个性化的学习体验，也为教育者创造了更多教学方式的可能性。个性化学习成为数字教育平台的关键词，学习者的学习路径、速度和内容可以因人而异，有助于更好地满足学生的学习需求。在线课程和培训平台使学习变得更加灵活，无论是远程教育还是终身学习，都得到了强有力的支持。虚拟现实(vr)和增强现实(ar)技术则为学习带来了更为沉浸式的体验，将抽象的概念变得具体可感知，为学生创造了更生动有趣的学习环境。

3、然而，在数字教育平台在线评估的封闭域中，信息抽取的重要性愈加凸显。在这个有限的领域内，精准抽

4、在封闭域内进行信息抽取是自然语言处理领域的重要任务之一。现有技术中，基于规则和模板的方法受限于规模较小的知识库和规则的制约，而基于传统机器学习方法在缺乏大规模标注数据时表现不佳。同时，通用型预训练模型在封闭域内的信息抽取能力有限，难以满足特定领域的需求。封闭域信息抽取领域呈现出明显的技术发展趋势，然而也存在一系列的挑战与限制。当前，借助预训练语言模型和深度学习技术，封闭域信息抽取在特定领域内取得了积极成果。这些方法通过构建领域相关的标注数据集和针对性模型，成功地从领域文本中抽取实体、关系和事件等关键信息，广泛应用于医疗、法律、金融等领域，为领域专家提供了强有力的决策支持。

5、然而，封闭域信息抽取仍然面临一些挑战。首先，数据稀缺是一个普遍存在的问题。相比通用领域，封闭域内的标注数据数量有限，限制了模型的泛化能力。此外，预训练模型在封闭域的领域适应性有时较差，因为领域内特有的术语、上下文和规则可能无法被通用模型有效学习。标注数据的获取也不容忽视，领域内专业知识的要求使得数据集的构建变得复杂且昂贵。

6、随着模型复杂度的增加，其解释性逐渐下降，这在敏感领域中尤为令人关注。模型的抽取决策难以解释，降低了模型的可信度，影响了其在领域内的实际应用。此外，封闭域信息抽取方法往往局限于特定场景，难以适应领域知识的迅速变化，需要不断的调整和重新训练。

技术实现思路

1、本专利技术目的在于针对现在大模型时间长，成本高的缺点，提供了一种高效的方法来抽取封闭域中的实体关系，上述的方法中以一段语句作为输入经过模型处理后的到语句中的实体信息，以及实体间的关系信息。

2、本专利技术为实现上述目的所采用的技术方案是：一种基于预训练模型的封闭域信息抽取方法，执行如下步骤用于抽取并识别封闭域三元组的实体及其类别；

3、对目标封闭域的文本数据进行预处理并标注，构建封闭域数据集；

4、建立用于封闭域关系抽取的网络模型，利用已标注的数据集进行迭代训练，用于对输入的封闭域文本抽取并识别包含实体和关系的三元组{主体、关系、客体}，实现封闭域内的语言理解和表示能力；

5、以分类数据集为模板对识别出的实体进行分类，确定其所属类别；输出封闭域的三元组及对应的实体类别作为抽取结果，用于组织和管理平台封闭域知识。

6、所述数据预处理并标注为文本清洗、文本分词、词性标注、实体标注、关系标注。

7、所述构建封闭域数据集为根据实体属性将实体分类划分为实体类别数据集，以及实体关系抽取标记数据集；所述标注数据集用于模型微调和信息抽取。

8、所述实体关系抽取标记数据集中文本数据被标记为{subject、relation、object}三元组；并按照预定比例分割为训练集、验证集和测试集。

9、实体分类标注数据集按照比例划分为训练集、验证集和测试集。

10、所述迭代训练包括：基于预训练模型，通过在标注数据集上进行微调，载入预训练模型、微调网络结构、预训练参数迁移。

11、所述迭代训练包括以下两个包括：

12、将文本逐字编码，并通过bert网络得到每个字的token，然后通过线性层抽取出实体信息；

13、将抽取出来的实体依次拼接为一条语句，并再次通过bert网络得到clf token，将clf token按照关系标注数据集进行分类得到两个实体之间的关系。

14、所述迭代训练采用masked language modeling和next sentence prediction方法。

15、所述输出封闭域的三元组及对应的实体类别采用结构化形式：三元组或图谱。

16、一种基于预训练模型的封闭域信息抽取系统，包括处理器和存储器，所述存储器中存储有如下程序模块，当处理器加载程序时执行封闭域信息抽取；所述程序模块包括：

17、数据处理模块：对目标封闭域的文本数据进行预处理并标注，构建封闭域数据集；

18、关系抽取建模及优化训练模块：建立用于封闭域关系抽取的网络模型，利用已标注的数据集进行迭代训练，用于对输入的封闭域文本抽取并识别包含实体和关系的三元组{主体、关系、客体}，实现在封闭域内的语言理解和表示能力；

19、实体分类模块：以分类数据集为模板对识别出的实体进行分类，确定其所属类别；输出封闭域的三元组及对应的实体类别，用于组织和管理平台封闭域知识。

20、本专利技术有一下优点以及效果：

21、1.本专利技术基于预训练模型，可以充分发挥海量数据的优势。预训练阶段使用无标签数据进行预训练，可以学习到丰富、高质量的语言特征表示。

22、2.本专利技术通过双向建模上下文信息，本文档来自技高网...

【技术保护点】

1.一种基于预训练模型的封闭域信息抽取方法，其特征在于，执行如下步骤用于抽取并识别封闭域三元组的实体及其类别；

2.根据权利要求1所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述数据预处理并标注为文本清洗、文本分词、词性标注、实体标注、关系标注。

3.根据权利要求1所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述构建封闭域数据集为根据实体属性将实体分类划分为实体类别数据集，以及实体关系抽取标记数据集；所述标注数据集用于模型微调和信息抽取。

4.根据权利要求3所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述实体关系抽取标记数据集中文本数据被标记为{subject、relation、object}三元组；并按照预定比例分割为训练集、验证集和测试集。

5.根据权利要求3所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，实体分类标注数据集按照比例划分为训练集、验证集和测试集。

6.根据权利要求1所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述迭代训练包括：基于预训练

7.根据权利要求6所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述迭代训练包括以下两个包括：

8.根据权利要求6所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述迭代训练采用Masked Language Modeling和Next Sentence Prediction方法。

9.根据权利要求1所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，所述输出封闭域的三元组及对应的实体类别采用结构化形式：三元组或图谱。

10.根据权利要求1所述的一种基于预训练模型的封闭域信息抽取系统，其特征在于，包括处理器和存储器，所述存储器中存储有如下程序模块，当处理器加载程序时执行封闭域信息抽取；所述程序模块包括：

...

【技术特征摘要】

1.一种基于预训练模型的封闭域信息抽取方法，其特征在于，执行如下步骤用于抽取并识别封闭域三元组的实体及其类别；

5.根据权利要求3所述的一种基于预训练模型的封闭域信息抽取方法，其特征在于，实体分类标注数据集按照比例划分为训练集、验证集和测试集。

【专利技术属性】
技术研发人员：卜立平，孙林壮，于碧辉，魏靖烜，姚征兵，刘大伟，
申请(专利权)人：中国科学院沈阳计算技术研究所有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人