一种政务服务便民热线的实体关系联合抽取方法及系统技术方案

技术编号:37668166 阅读:37 留言:0更新日期:2023-05-26 04:28
本发明专利技术提供了一种政务服务便民热线的实体关系联合抽取方法及系统,将政务服务便民热线案例实体关系抽取看作三元组抽取问题,即先抽取头实体,再通过头实体相关信息抽取尾实体和关系,具体先对热线案例中的具体内容的目标文本进行编码,再通过单层指针网络编码方式抽取头实体,接着结合上下文编码信息和头实体位置编码信息,最后通过多层指针网络编码方式抽取尾实体和关系。本方法能提高对政务服务便民热线数据精准分析和处理的能力,更好地满足政务服务便民热线智能化的需求。务服务便民热线智能化的需求。务服务便民热线智能化的需求。

【技术实现步骤摘要】
一种政务服务便民热线的实体关系联合抽取方法及系统


[0001]本专利技术涉及自然语言处理
,特别涉及一种政务服务便民热线的实体关系联合抽取方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
,并不必然构成现有技术。
[0003]随着政务服务便民热线数据的急剧增多,数据的精确分析和处理已经迫在眉睫。目前,这个政务服务便民热线作为民生诉求响应的重要渠道,政务服务便民热线的智能化就显得更加重要。政务服务便民热线的智能化需要有对数据精准分析和处理的能力,而知识图谱在这两个方面具有优势,但在构建政务服务便民热线知识图谱之前,需要将非结构化的热线数据进行知识抽取操作,在这个过程中需要使用到实体关系的联合抽取方法,以此将城市热线数据中的实体和关系抽取出来,并将这些抽取出来的实体和关系进行存储构成知识图谱,达到对城市热线数据的精准分析和处理。
[0004]目前,实体关系抽取方法分为了流水线方法和联合抽取方法。流水线的实体关系抽取方法首先识别实体,再对实体之间的关系进行分类,例如基于条件随机场和卷积神经网络本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种政务服务便民热线的实体关系联合抽取方法,其特征在于,包括以下步骤:获取政务服务便民热线文本数据,输入到预训练语言模型ALBERT中;预训练语言模型ALBERT对输入数据进行特征提取,挖掘深层次语义特征,得到上下文信息丰富的编码向量;对编码向量抽取头实体,然后按照关系类别抽取尾实体和关系,最后以三元组的形式输出;其中,预训练语言模型ALBERT由嵌入层和Transformer层组成,嵌入层通过字典将每个字符映射成字向量,输入到串联的Transformer层,通过预训练去捕捉语法和语义层面的信息,把文本中包含的语言知识编码到Transformer编码器中以参数的形式体现出来。2.如权利要求1所述的政务服务便民热线的实体关系联合抽取方法,其特征在于,获取的政务服务便民热线数据是非结构化的,存在大量重复数据和部分无效数据,需要先对数据进行去重操作和筛选,再进行数据的标注,第一步标记出头实体位置和头实体标签,第二步标记尾实体位置和对应关系。3.如权利要求1所述的政务服务便民热线的实体关系联合抽取方法,其特征在于,采用预训练语言模型ALBERT对待抽取的文本数据进行特征编码,编码结果对头实体抽取、尾实体和关系抽取两个任务共享。4.如权利要求1所述的政务服务便民热线的实体关系联合抽取方法,其特征在于,所述三元组抽取层,包括:头实体抽取层和尾实体关系联合抽取层。5.如权利要求4所述的政务服务便民热线的实体关系联合抽取方法,其特征在于,所述头实体抽取层,使用指针网络解码的方式抽取头实体,具体为:将头实体的标签分为开始标签与结束标签;将Transformer编码器层输出的编码向量输入到两个相同的二进制指针标注器,分别预测句子中头实体的开始位置和结束位置,得到头实体;对头实体的实体类...

【专利技术属性】
技术研发人员:陈作海钱恒高永超
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1