一种基于统一结构生成的通用信息抽取方法及系统技术方案

技术编号：33446108 阅读：116 留言：0更新日期：2022-05-19 00:31

本发明专利技术提出一种基于统一结构生成的通用信息抽取方法及系统，属于自然语言处理技术领域，采用通用的结构化抽取语言表达不同的抽取结构，该结构化语言包含不同的层次，可以表示多种不同结构的信息抽取结果；解码时通过结构化框架抽取引导机制对特定的抽取需求进行建模，帮助模型快速泛化到特定任务；利用不同的任务对统一生成模型进行预训练，并对预训练后的模型进行微调，提高统一生成模型的性能。提高统一生成模型的性能。提高统一生成模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于统一结构生成的通用信息抽取方法及系统

[0001]本专利技术涉及一种基于统一结构生成的通用信息抽取方法及系统，属于自然语言处理

技术介绍

[0002]通用信息抽取(Universal Information Extraction)旨在从非结构化文本中自动抽取结构化信息，该类记录信息包括但不限于文本实体结构、实体之间关系结构和多元情感结构等。以实体关系信息抽取为例，给定句子“In 1997,Steve was excited to become the CEO of Apple.”，一个信息抽取系统应当能够识别一个“就职”事件，该事件的触发词为“become”，论元结构为“Steve”(主体)、“Apple”(客体)和“1997”(事件)；三个实体，Apple：公司，Steve：人物，1997：时间；一个关系，“Steve”供职于“Apple”。通用信息抽取是知识图谱构建及自然语言理解中的关键任务。
[0003]具体而言，通用信息抽取的输入是特定的抽取需求和待抽取的文本，输出是结构化的知识结构。例如，如图1所示，抽取需求为人物(Person)和供职关系(Work for)，输入文本是“Steve became CEO of Apple in 1997.”，最后的抽取结构为(Person,Steve,Work for,Org,Apple)。不同的抽取需求，通用信息抽取模型应当抽取不同的新结构化知识。
[0004]目前，大多数信息抽取方法主要包括序列标注的方法、文本块分类的方法和阅读理解的...

【技术保护点】

【技术特征摘要】
1.一种基于统一结构生成的通用信息抽取方法，其特征在于，包括以下步骤：构建结构抽取模式引导器，该结构抽取模式引导器包含三种类型的文本片段：信息片段的类型名称、关联关系的类型名称和语法符号，该语法符号用于组合信息片段的类型名称、关联关系的类型名称和待抽取文本；构建由编码器和解码器组成的统一生成模型，该统一生成模型以待抽取文本与结构抽取模式引导器拼接为输入，通过编码器编码生成向量化表示，再通过解码器预测生成统一的结构化抽取语言表达式，该结构化抽取语言表达式包含信息片段的类型名称、关联关系的类型名称、信息片段和语法符号，该语法符号用于表示信息片段到信息片段的类型名称或关联关系的类型名称的映射；通过结构映射任务、结构语言模型任务和掩码语言模型任务对统一生成模型进行预训练；该结构映射任务使用由标记序列和结构化记录组成的文本结构平行数据，训练模型学习抽取能力和生成结构化抽取语言表达式的能力；该结构语言模型任务使用由结构化记录组成的结构数据集，训练模型学习生成结构化抽取语言表达式的能力；该掩码语言模型任务使用纯文本数据集训练模型保留文本级别语义的能力；针对预训练后的统一生成模型，根据预定的抽取数据集，采用交叉熵函数对编码器和解码器的参数进行微调；在后续使用时，利用微调后的统一生成模型处理与结构抽取模式引导器拼接的待抽取文本，生成统一的结构化抽取语言表达式，再将该结构化抽取语言表达式转化为抽取后的信息记录。2.如权利要求1所述的方法，其特征在于，结构映射任务在进行模型训练时，为文本结构平行数据中的每一个实例构造负模式，该实例中存在的正模式为实例中存在的抽取模式，构造的负模式为实例中不存在的抽取模式，由负模式和正模式组成为训练用的样本；利用该样本训练统一生成模型，调节编码器和解码器的参数。3.如权利要求1所述的方法，其特征在于，结构语言模型任务在进行模型训练时，采用自回归形式的交叉熵目标函数进行模型学习，调节解码器的参数。4.如权利要求1所述的方法，其特征在于，掩码语言模型任务在进行模型训练时，首先对纯文本进行掩码破坏，然后通过统一生成模型预测可补全的片段，调节编码器和解码器的参数。5.如权利要求1所述的方法，其特征在于，采用拒绝识别的机制对预训练后的统一生成模型进行微调，即在训练过程中加入无法抽取的噪声片段...

【专利技术属性】
技术研发人员：孙乐，陆垚杰，韩先培，林鸿宇，肖欣延，戴岱，郑佳，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人