一种基于多轮自动问答的电力技术标准实体关系抽取方法技术

技术编号:36851125 阅读:8 留言:0更新日期:2023-03-15 17:16
本发明专利技术提出了一种基于多轮自动问答的电力技术标准实体关系抽取方法,包括:步骤1.构建电力技术标准语料库;步骤2.针对电力技术标准语料种类构建信息抽取要素模板;步骤3.根据信息抽取要素模板,构建电力技术标准问答语料库;步骤4.针对步骤1中所述的电力技术标准语料构建文本分类模块;步骤5.针对步骤4中文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块,其功能是将复杂问题拆分成简单问题,逐步进行推理回答;步骤6.针对电力技术标准问答语料库构建机器阅读理解模块,逐步推理解答步骤5自动构建的问题,完成本发明专利技术抽取方法。本发明专利技术,能够有效的缓解复杂文本中关系重叠、实体对跨句依赖的现象。实体对跨句依赖的现象。实体对跨句依赖的现象。

【技术实现步骤摘要】
一种基于多轮自动问答的电力技术标准实体关系抽取方法


[0001]本专利技术涉及电力技术实体关系抽取
,尤其涉及一种基于多轮自动问答的电力技术标准实体关系抽取方法

技术介绍

[0002]电力技术标准是安全生产和设备管理高质量发展的重要保障,是企业卓越竞争力的重要体现,是一切技术工作的前提条件。“加快技术标准数字化、模块化,建设精准检索、智能问答和辅助研判等核心应用,逐步实现技术标准与现场作业深度融合,强化标准赋能基层一线”是现代设备管理体系建设的重要要求。由于现有的自动实体关系抽取模块准确性不足,基于通用语料训练的模块在专业领域下效果有较大损失,迁移学习效果不显著等因素,构建面向电力技术标准领域的高性能实体关系抽取模块成为亟待解决的难题。
[0003]实体关系抽取作为信息抽取领域的关键性基础任务一直以来受到研究者的广泛关注,旨在从非结构化的文本中抽取出实体以及实体之间的关系。其抽取出的信息为自然语言处理领域的下游任务例如知识图谱构建,信息检索、智能问答等任务提供了知识基础。早期,研究者通常将其划分为两个子任务:命名实体识别以及关系抽取,采用流水线式的框架分别完成。由于在该框架下子任务之间完全独立,模块的错误累积问题一直被研究人员所诟病。随着端到端模块的兴起,一种联合实体关系抽取框架受到广泛关注,通过将两个子任务放入一个结构化预测框架中,或者通过共享表示执行多任务学习,完成对子任务的联合建模。然而,最新的研究工作表明联合建模的性能并不一定优于流水线模式。
[0004]尽管大量优秀的研究工作推动实体关系抽取任务获取了卓越的成就,但目前大多数的研究都是面向新闻报道等通用领域数据集,实体大部分都是常见的时间,地点,人名,机构等类别,这些实体类别之间的依赖关系已经得到充分挖掘,三元组的schema也具备完善的设定。例如:北京是中国的首都。模块通过单步依赖就可以完成抽取任务,获得(北京

city,首都

ReL,中国

Country)。然而这种短文本或单关系的样本在实际应用中是非常少见的,大部分的样本都是长文本、多关系且实体对之间可能存在较远的依赖距离,位于不同的句子中,即跨句实体对。此外,实体对之间可能存在多个关系,而不同的关系可能共享相同的实体,即关系重叠。其普遍存在于专有领域的复杂知识样本中。然而现有的研究方法在解决关系重叠方面是乏力的。
[0005]现有的实体关系抽取框架主要有以下方式:
[0006]1.基于流水线框架的实体关系抽取
[0007]早期的实体关系抽取模块大多采用流水线框架,研究者将任务分解为命名实体识别与关系抽取两个子任务分别完成。按照子任务的执行任务不同,又可以划分为先实体后关系、先关系后实体两种模式。前者先通过实体识别模块抽取意向类别的实体,然后将抽取的实体作为先验来预测可能存在的关系;后者则首先通过关系分类抽取输入文本中的关系,然后将其作为先验执行实体识别。虽然流水线框架具备广泛的适用性,可以灵活应对几乎所有领域的实体关系抽取任务,但由于在该框架下,子任务的执行完全独立,忽略了实体
模块与关系模块之间的交互,导致上游任务的错误累积到下游任务,并且这样的错误传播不可逆。
[0008]2.联合实体关系抽取
[0009]为了解决流水线框架的误差累积问题,联合训练的实体关系抽取模块被提出,大量优秀的研究工作已经证明联合模块能够建模实体与关系之间的交互,有效缓解了错误累积问题。研究者通常将其划分为结构化预测与多任务学习两种类别。
[0010]结构化预测方法是将这两个任务整合到一个统一的框架中,包括:(1)采用基于动作的系统,它能够识别新实体并且将其链接到先前的实体。(2)采用一种表格填充方法,表的对角线用实体标记填充,其余的用关系标记填充,关系标记表示实体对对之间可能存在的关系。(3)采用基于图神经网络的方法来联合预测实体和关系类型。(4)将任务转化为多轮问答问题。然而所有的这些方法都需要解决全局优化问题。
[0011]多任务学习方法大多采用级联的方式来解决联合问题,仍然需要构建两个单独的实体识别和关系提取模块,只是通过参数共享策略对其进行共同优化,包括:(1)利用序列标记模块进行实体预测,利用基于树的LSTM模块进行关系提取。(2)使用跨度表示法来预测关系。然而这些方法仍然执行流水线式解码,即先抽取实体,然后利用关系模块预测实体之间的依赖。

技术实现思路

[0012]针对上述现有技术中存在的不足之处,本专利技术提出了一种基于多轮自动问答的实体关系抽取方法。基于目前标准的机器阅读理解框架,结合本专利技术提出的自动构建问题的策略,将实体关系抽取转换为多轮问答任务:其中每个实体类型和关系类型由问题进行表征,实体和关系由机器阅读理解框架进行答案提取。问题可以为语义理解提供额外的先验知识,即实体类型、关系类型;答案则为相应问题的答案文本跨度。
[0013]本专利技术为实现上述目的所采用的技术方案是:
[0014]一种基于多轮自动问答的电力技术标准实体关系抽取方法,包括如下步骤:
[0015]步骤1.构建电力技术标准语料库;
[0016]步骤2.针对电力技术标准语料种类构建信息抽取要素模板;
[0017]步骤3.根据信息抽取要素模板,构建电力技术标准问答语料库;
[0018]步骤4.针对步骤1中所述的电力技术标准语料构建文本分类模块;
[0019]步骤5.针对步骤4中文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块,其功能是将复杂问题拆分成简单问题,逐步进行推理回答;
[0020]步骤6.针对电力技术标准问答语料库构建机器阅读理解模块,来逐步推理解答步骤5自动构建的问题,完成一种基于多轮自动问答的电力技术标准实体关系抽取方法。
[0021]更进一步的,步骤1所述的构建电力技术标准语料库,是根据基层实际业务选取的电力技术标准,经过处理后,存储为语料数据。
[0022]更进一步的,步骤2所述针对电力技术标准语料种类构建信息抽取要素模板,是根据数据样本按照所包含的关键信息种类划分为抽取类、数字类、统计类和判断类,然后设定每个模板的抽取要素,为后续的电力技术标准问答语料库提供问题模板。
[0023]更进一步的,步骤3所述根据信息抽取要素模板,构建电力技术标准问答语料库,
是为机器阅读理解模块在训练阶段提供训练预料,每个电力技术标准根据信息抽取要素模板生成多轮问答的问题作为输入,相应的实体关系作为答案,经过处理后,以问答对的形式存储为语料数据。
[0024]更进一步的,步骤4所述针对电力技术标准语料构建文本分类模块,是为预测输入文本中关键信息的所属类别,并与步骤2中所述信息抽取要素模板进行匹配,根据信息的所属类别,分配对应的信息抽取要素模板。
[0025]更进一步的,步骤5所述的对文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块,是根据文本分类模块输出的语料类别,自动构建;在多轮问答阶段,模块本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,包括如下步骤:步骤1.构建电力技术标准语料库;步骤2.针对电力技术标准语料种类构建信息抽取要素模板;步骤3.根据信息抽取要素模板,构建电力技术标准问答语料库;步骤4.针对步骤1中所述的电力技术标准语料构建文本分类模块,其功能将问题分为四个大类,以便定位问题构建模板;步骤5.针对步骤4中文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块,将复杂问题拆分成简单问题,逐步进行推理回答;步骤6.针对电力技术标准问答语料库构建机器阅读理解模块,来逐步推理解答步骤5自动构建的问题,完成一种基于多轮自动问答的电力技术标准实体关系抽取方法。2.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,步骤1所述的构建电力技术标准语料库,是根据基层实际业务选取的电力技术标准,经过处理后,存储为语料数据。3.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,步骤2所述针对电力技术标准语料种类构建信息抽取要素模板,是根据数据样本按照所包含的关键信息种类划分为抽取类、数字类、统计类和判断类,设定每个模板的抽取要素,为后续的电力技术标准问答语料库提供问题模板。4.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,步骤3所述根据信息抽取要素模板,构建电力技术标准问答语料库,是为机器阅读理解模块在训练阶段提供训练预料,每个电力技术标准根据信息抽取要素模板生成多轮问答的问题作为输入,相应的实体关系作为答案,经过处理后,以问答对的形式存储为语料数据。5.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,步骤4所述针对电力技术标准语料构建文本分类模块,是为预测输入文本中关键信息的所属类别,并与步骤2中所述信息抽取要素模板进行匹配,根据信息的所属类别,分配对应的信息抽取要素模板。6.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,步骤5所述的对文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块,是根据文本分类模块输出的语料类别,自动构建;在多轮问答阶段,模块首先抽取头实体,然后根据模板中设定抽取的尾实体类别、关系类别以及每轮问答获取的答案自动构建下一轮问答的问题,从而联合抽取关系与尾实体,当问答获取到多个答案时,需要在下一轮问答阶段遍历构建所有答案对应的问题。7.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,步骤6所述的针对电力技术标准问答语料库构建机器阅读理解模块,是从输入样本中抽取问题对应的答案跨度,包括输入、输出、参数设定和评估标准。8.根据权利要求7所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法,其特征在于,所述输入是对于每一个给定的句子样本C={w1,w2,

w
n
},以及用于提问的问题Q={Qw1,Qw2,

Qw
n
},将其构建为BERT预训练模块所需的输入序列S={[CLS],Qw1,Qw2,

Qw
n
,[SEP],w1,w2,

【专利技术属性】
技术研发人员:王诗清李广翱高凤喜王汀徐凯王阳苑经纬迟丹一尚莹张敏杰
申请(专利权)人:无锡澎湃数智科技有限公司国家电网有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1