当前位置: 首页 > 专利查询>无锡澎湃数智科技有限公司国家电网有限公司专利>正文

一种基于多轮自动问答的电力技术标准实体关系抽取方法技术

技术编号：36851125 阅读：8 留言：0更新日期：2023-03-15 17:16

本发明专利技术提出了一种基于多轮自动问答的电力技术标准实体关系抽取方法，包括：步骤1.构建电力技术标准语料库；步骤2.针对电力技术标准语料种类构建信息抽取要素模板；步骤3.根据信息抽取要素模板，构建电力技术标准问答语料库；步骤4.针对步骤1中所述的电力技术标准语料构建文本分类模块；步骤5.针对步骤4中文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块，其功能是将复杂问题拆分成简单问题，逐步进行推理回答；步骤6.针对电力技术标准问答语料库构建机器阅读理解模块，逐步推理解答步骤5自动构建的问题，完成本发明专利技术抽取方法。本发明专利技术，能够有效的缓解复杂文本中关系重叠、实体对跨句依赖的现象。实体对跨句依赖的现象。实体对跨句依赖的现象。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多轮自动问答的电力技术标准实体关系抽取方法

[0001]本专利技术涉及电力技术实体关系抽取
，尤其涉及一种基于多轮自动问答的电力技术标准实体关系抽取方法

技术介绍

[0002]电力技术标准是安全生产和设备管理高质量发展的重要保障，是企业卓越竞争力的重要体现，是一切技术工作的前提条件。“加快技术标准数字化、模块化，建设精准检索、智能问答和辅助研判等核心应用，逐步实现技术标准与现场作业深度融合，强化标准赋能基层一线”是现代设备管理体系建设的重要要求。由于现有的自动实体关系抽取模块准确性不足，基于通用语料训练的模块在专业领域下效果有较大损失，迁移学习效果不显著等因素，构建面向电力技术标准领域的高性能实体关系抽取模块成为亟待解决的难题。
[0003]实体关系抽取作为信息抽取领域的关键性基础任务一直以来受到研究者的广泛关注，旨在从非结构化的文本中抽取出实体以及实体之间的关系。其抽取出的信息为自然语言处理领域的下游任务例如知识图谱构建，信息检索、智能问答等任务提供了知识基础。早期，研究者通常将其划分为两个子任务：命名实体识别以及关系抽取，采用流水线式的框架分别完成。由于在该框架下子任务之间完全独立，模块的错误累积问题一直被研究人员所诟病。随着端到端模块的兴起，一种联合实体关系抽取框架受到广泛关注，通过将两个子任务放入一个结构化预测框架中，或者通过共享表示执行多任务学习，完成对子任务的联合建模。然而，最新的研究工作表明联合建模的性能并不一定优于流水线模式。
[0004]尽管大量优秀的研究工作推动实体关...

【技术保护点】

【技术特征摘要】
1.一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，包括如下步骤：步骤1.构建电力技术标准语料库；步骤2.针对电力技术标准语料种类构建信息抽取要素模板；步骤3.根据信息抽取要素模板，构建电力技术标准问答语料库；步骤4.针对步骤1中所述的电力技术标准语料构建文本分类模块，其功能将问题分为四个大类，以便定位问题构建模板；步骤5.针对步骤4中文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块，将复杂问题拆分成简单问题，逐步进行推理回答；步骤6.针对电力技术标准问答语料库构建机器阅读理解模块，来逐步推理解答步骤5自动构建的问题，完成一种基于多轮自动问答的电力技术标准实体关系抽取方法。2.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，步骤1所述的构建电力技术标准语料库，是根据基层实际业务选取的电力技术标准，经过处理后，存储为语料数据。3.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，步骤2所述针对电力技术标准语料种类构建信息抽取要素模板，是根据数据样本按照所包含的关键信息种类划分为抽取类、数字类、统计类和判断类，设定每个模板的抽取要素，为后续的电力技术标准问答语料库提供问题模板。4.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，步骤3所述根据信息抽取要素模板，构建电力技术标准问答语料库，是为机器阅读理解模块在训练阶段提供训练预料，每个电力技术标准根据信息抽取要素模板生成多轮问答的问题作为输入，相应的实体关系作为答案，经过处理后，以问答对的形式存储为语料数据。5.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，步骤4所述针对电力技术标准语料构建文本分类模块，是为预测输入文本中关键信息的所属类别，并与步骤2中所述信息抽取要素模板进行匹配，根据信息的所属类别，分配对应的信息抽取要素模板。6.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，步骤5所述的对文本分类结果匹配信息抽取要素模板自动构建多轮问答与问题模块，是根据文本分类模块输出的语料类别，自动构建；在多轮问答阶段，模块首先抽取头实体，然后根据模板中设定抽取的尾实体类别、关系类别以及每轮问答获取的答案自动构建下一轮问答的问题，从而联合抽取关系与尾实体，当问答获取到多个答案时，需要在下一轮问答阶段遍历构建所有答案对应的问题。7.根据权利要求1所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，步骤6所述的针对电力技术标准问答语料库构建机器阅读理解模块，是从输入样本中抽取问题对应的答案跨度，包括输入、输出、参数设定和评估标准。8.根据权利要求7所述的一种基于多轮自动问答的电力技术标准实体关系抽取方法，其特征在于，所述输入是对于每一个给定的句子样本C＝{w1,w2,
…
w
n
}，以及用于提问的问题Q＝{Qw1,Qw2,
…
Qw
n
},将其构建为BERT预训练模块所需的输入序列S＝{[CLS],Qw1,Qw2,
…
Qw
n
,[SEP],w1,w2,
…

【专利技术属性】
技术研发人员：王诗清，李广翱，高凤喜，王汀，徐凯，王阳，苑经纬，迟丹一，尚莹，张敏杰，
申请(专利权)人：无锡澎湃数智科技有限公司国家电网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人