【技术实现步骤摘要】
一种人工智能领域文档关键信息抽取方法
本专利技术属于人工智能自然语言处理
,具体涉及一种人工智能领域文档关键信息抽取方法。
技术介绍
人工智能科学领域海量的无结构化文本文档蕴含着丰富的知识,若能将其进行结构化,可以极大地丰富人们获取相关知识的途径,降低人们获取相关知识的难度。然而,传统的人工主导的结构化方式消耗大量的人力资源且效率低下,并不是解决该问题的最优选择。相反地,使用机器进行关键信息抽取并实现知识结构化是一种非常高效且经济的方法。目前,越来越多的基于深度学习的关键信息抽取方法被提出,但仍存在一定的不足之处仍存在。基于序列标注的关键信息抽取方法更适用于文本跨度短的场合,但是面对文本跨度长的subject和object时很难得到一个完整的结果。基于机器阅读理解的信息抽取模型HBT虽然能够缓解以上问题,但直接应用却效果差。此外,人工智能等自然科学领域的知识文本中存在着多种多样的知识类型,通过穷举法覆盖定义这些关系类型是不现实的,虽然开放信息抽取形式能够解决这一问题,但是已有的研究集中在对一句话的内容进行开放信 ...
【技术保护点】
1.一种人工智能领域文档关键信息抽取方法,其特征在于,包括以下步骤:/nS1、收集人工智能领域文档数据,再利用收集的数据进行关键信息抽取数据标注;/nS2、对预训练模型RoBERTa,在人工智能领域无结构化文本中进行进一步预训练;/nS3、构建信息抽取模型;/nS4、利用进一步预训练得到的RoBERTa模型进行信息抽取模型骨干网络参数初始化;/nS5、利用已标注数据进行训练,训练过程中对标注数据进行随机替换和数据增强,并利用平方交叉熵损失来计算反向传播的误差;/nS6、利用训练得到的信息抽取模型在人工智能领域无结构化文本中进行信息抽取得到结果三元组,并对结果三元组进行整合。/n
【技术特征摘要】
1.一种人工智能领域文档关键信息抽取方法,其特征在于,包括以下步骤:
S1、收集人工智能领域文档数据,再利用收集的数据进行关键信息抽取数据标注;
S2、对预训练模型RoBERTa,在人工智能领域无结构化文本中进行进一步预训练;
S3、构建信息抽取模型;
S4、利用进一步预训练得到的RoBERTa模型进行信息抽取模型骨干网络参数初始化;
S5、利用已标注数据进行训练,训练过程中对标注数据进行随机替换和数据增强,并利用平方交叉熵损失来计算反向传播的误差;
S6、利用训练得到的信息抽取模型在人工智能领域无结构化文本中进行信息抽取得到结果三元组,并对结果三元组进行整合。
2.根据权利要求1所述的一种人工智能领域文档关键信息抽取方法,其特征在于,所述步骤S1具体包括:
S11、收集来源于人工智能领域相关的科学出版物、文献以及网络科普知识的无结构化文本段落,并限制文本段落长度在510个字符内;
S12、对要抽取出的关键信息三元组类型进行定义,具体为:
采用普通关系定义法定义5种三元组类型:
实体-描述-描述内容、实体-提出者-提出者名、实体-包含-包含内容、实体-应用-应用内容以及实体-别称-别称名;
采用伪关系定义法定义4种三元组类型:
实体属性-伪关系1-实体、实体属性-伪关系2-描述内容、实体属性-伪关系3-应用内容以及实体属性-伪关系4-包含内容;
S13、对已经定义出的三元组类型进行标注,具体为:
在开源文本标注工具brat中打开待标注文本,用鼠标光标选中待标注文本中的某一段字符作为某一三元组起点实体subject,然后在弹出的选择窗口中点击选择该subject的实体类别,然后用同样的方式选中该三元组的终点实体object并选择其类别,最终通过用鼠标选中该三元组中subject并拖拽至object的方法使得二者产生关系连线,此时在弹出的选择窗口中选择关系连线的类别即完成了一个三元组的标注;重复本步骤直至完成所有待标注文本中所有三元组的标注。
3.根据权利要求1所述的一种人工智能领域文档关键信息抽取方法,其特征在于,所述RoBERTa模型具体包括三个特征维度为756的Embedding层、十二个特征维度为756的Transformer层以及一个输入通道数为756,输出通道数为所有训练文本数据中字符种类总数的全连接层;
所述三个Embedding层分别为TokenEmbedding层、PositionEmbedding层以及SegmentEmbedding层;
所述三个Embedding层分别将输入模型的文本数据映射为一个形状为输入到模型的文本段数量×512×756的特征向量,将这三个输出的特征向量加和得到的一个形状为输入到模型的文本段数量×512×756的特征向量作为三个Embedding层整体的输出,并作为RoBERTa模型的十二个Transformer层的输入;RoBERTa模型的十二个Transformer层输出为一个形状为输入到模型的文本段数量×512×756的特征向量,并作为全连接层的输入,全连接层的输出为模型对于输入文本段中每个被预设标记符号替换的词中每个字符为字典中每一个字符的概率预测结果,所述字典是所有输入的训练文本段数据的所有字符的集合。
4.根据权利要求1所述的一种人工智能领域文档关键信息抽取方法,其特征在于,所述步骤S2具体为:
对预训练模型RoBERTa,首先用jieba分词工具对训练文本进行分词,然后使用预训练的RoBERTa模型参数初始化待训练的RoBERTa模型参数;然后在每次迭代中基于jieba分词工具的分词结果,采用一预设标记随机替换分词结果中的部分词,并将处理结果输入到预训练模型RoBERTa中,之后用预训练模型RoBERTa预测被标记替换的词。
5.根据权利要求3所述的一种人工智能领域文档关键信息抽取方法,其特征在于,所述构建信息抽取模型具体为:
基于RoBERTa模型,在RoBERTa模型第10层Transformer层后加入subject预测模块,在subject预测模块后加入特征融合模块,在特征融合模块后加入predicate-object预测模块;
所述subject预测模块具体包括一个输入通道数为756,输出通道数为2的全连接层以及与该全连接层相连的ReLU层、Dropout层以及Sigmoid激活函数层;
所述特征融合模块具体包括一个输入和输出通道数分别为1512和756的全连接层以及与之相连的ReLU层、Dropout层和RoBERTa最后两层Transformer;
所述predicate-object预测模块具体包括一个输入通道数为756,输出通道数为2×predicate类别总数的全连接层和与全连接层相连的ReLU层、Dropout层以及Sigmoid激活函数层。
6.根据权利要求5所述的一种人工智能领域文档关键信息抽取方法,其特征在于,所述subject预测模块输入是信息抽取模型第10层Transformer层输出的形状为输入到模型的文本段数量×512×756的特征向量,输出是对应于原输入信息抽取模型的512个字符位置上,每个字符位置为subject的起点的概率预测结果和每个字符位置为subject的终点的概率预测结果;
所述特征融合模块将subject的特征语义融合输入到信息抽取模型的文本段在RoBERTa模型第10层Transformer输出的特征向量中,得到融合subject特征的特征向量,其输入是RoBERTa模型第10层Transformer输出的形状为输入到模型的文本段数量×512×756的特征向量以及形状均为输入到模型的文本段数量×1的选中的subject起点位置标注值和选中的subject终点位置标注值;所述选中的subject是从这一批输入到模型的训练文本数据里面每个样本的所有标注subject中动态地在迭代时随机挑选一个获得;
训练时,特征融合模块首先根据输入的subject起点和终点位置选出RoBERTa第10层Transformer输...
【专利技术属性】
技术研发人员:曲晨帆,金连文,林上港,马骏,刘振鑫,谭濯,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。