【技术实现步骤摘要】
基于自标签与prompt的文档级低资源场景的要素抽取方法
[0001]本专利技术属于文档级低资源领域数据处理
,具体设计一种基于自标签与prompt的文档级低资源场景的要素抽取方法。
技术介绍
[0002]信息时代下互联网数据量呈指数增长,随着互联网技术的飞速发展,网络上的信息呈现爆炸式地增长,不仅信息规模不断扩大,信息种类也不断增多。与此同时,大量数据在各个领域的成功应用宣告了大数据时代的到来,大数据在社会的发展中起着越来越重要的作用,其价值已得到了社会的普遍认可。例如,近年来,随着我国法制化建设的不断深入,司法案件的审理也变得愈发透明,裁判文书在网上的公开就是一个典型例子。裁判文书作为承载法院案件审理过程以及审判结果的“司法产品”,其蕴含着丰富的司法信息,包括判决法院、案号、当事人诉讼请求、案件名称、判决结果、适用法律等,这些恰恰聚集了法院“大数据”的核心要素。通过对这些信息进行深度挖掘,可以总结案件审判规律,预测审判趋势,提升司法公信力,为实现司法公正,建设法制社会提供技术支撑。然而,裁判文书是一种半结构化的领域 ...
【技术保护点】
【技术特征摘要】
1.基于自标签与prompt的文档级低资源场景的要素抽取方法,该方法包括以下步骤:1)Bert
‑
NER模型的构建:使用爬虫获取专业领域数据,对数据统计TF
‑
IDF构建专业领域数据基础词典,通过知识图谱对专业领域数据词典中的实体进行查询,检索其临近边“关系”与节点“实体”,将未在词典中的实体与关系添加进词典,得到专业领域数据最终词典,利用专业领域数据最终词典和大规模数据无监督预训练得到Bert
‑
NER老师模型,再取一个Bert模型作为Bert
‑
NER学生模型,利用此Bert
‑
NER老师模型与Bert
‑
NER学生模型对大规模无标记数据进行自训练克服专业领域低资源的问题,迭代得到最终的Bert
‑
NER模型;2)词频token的获得:利用远程知识库远程监督作为无标记数据的注释,分别统计文档与bert辅助模型生成结果entity与relation_trigger的词频,将其融合得到综合词频,对每个标签综合词频top
‑
k的元素进行编码并融合得到该标签的词频token;3)自标签token的获得:针对专业领域标签层次化显著的特点,设计一种专业领域分层标签,将文档entity与relation_trigger的标签数据转化为自然语言形式,再根据标注样式转化为自然语言注释形式,获得自标签token;4)标签的对应token在上述模型中的放入:将标签补充进Bert
‑
NER模型词表,再融合自标签token与词频token,将其作为标签token作为Bert
‑
NER词表补充的标签的对应token放入模型;5)Entity集和Relation_trigger集的获得:针对专业领域文档级的应用场景,将NER任务重新定义为面向要素的语言模型分类任务,显著加快解码速度,并对跨句实体关系语义进行有效吸收,使用Bert
‑
NER模型对文档进行NER抽取,获得Entity集和Relation_trigger集;6)语料数据的大规模扩充:针对专业领域低资源的应用场景,设计用于RE
‑
MRC任务的prompt模板,利用Entity集和Relation_trigger集基于prompt构造模板获得RE
‑
MRC任务训练语料,利用prompt构造模板对语料数据进行大规模扩充以克服专业领域低资源的问题;使用RE
‑
MRC任务训练语料得到Bert
‑
RE模型;7)要素的抽取:利用步骤6)得到的Bert
‑
RE模型对文档进行RE抽取,得到relation集,完成文档级低资源场景的要素抽取任务。2.根据权利要求1所述的要素抽取方法,其特征在于,步骤1)更具体地包括:1.1)所需要抽取的文档所属专业领域为使用基于hadoop的大数据框架在遵守法律与爬虫协议的基础上对可用的网络资源进行爬取;1.2)使用Bert辅助模型对未标记数据进行分词,对数据中的字符计算其TF
‑
IDF:TF
i,j
=(n
i,j
/∑kn
k,j
);IDF
i
=log(|D|/|j:t
i
∈d
j
|);TF
‑
IDF
i
=TF
i,j
×
IDF
i
;其中:TF
i,j
表示词条t
i
在文档d
j
中出现的频率;n
i,j
表示文档d
j
中词条i的数量;n
k,j
表示文档d
j
中词条k的数量;IDF
i
表示词条t
i
的逆文档频率;D表示所有文档;j表示第j个文档的下标;t
i
表示第i个词条;d
j
表示第j个文档;TF
‑
IDF
i
表示第i个词条的文档
‑
逆文档频率;1.3)对TF
‑
IDF计算结果进行排序,挑选一定数量(例如10
‑
5000个)的词汇组成专业领域数据基础词典;1.4)对于专业领域数据基础词典中的每一个词汇,通过知识图谱进行远程查询,对知
识图谱上所属词汇的相关关系与临近实体节点进行查询,若不在专业领域数据基础词典中,则将其加入专业领域数据基础词典中,构成专业领域数据最终词典;1.5)将处理好的数据分别放入两个Bert模型利用专业领域数据最终词典使用MLM任务与NSP任务进行预训练,得到一个Bert
‑
NER老师模型和一个Bert
‑
NER学生模型;其中MLM任务是在输入语料的句子中,随机挑选百分比5
‑
40%的token,将这些token用[MASK]替换,然后用bert模型预测[MASK]是什么词,而NSP任务是对输入语料的句子进行标记,每个样本选择两个句子A、B,预测B是否是A的下一句话;1.6)使用Bert
‑
NER老师模型对未标记数据进行预测,预测结果作为伪标签;1.7)再将标记数据和未标记数据结合标签和伪标签一起训练Bert
‑
NER学生模型;1.8)这之后将Bert
‑
NER学生模型作为新的Bert
‑
NER老师模型,而Bert
‑
NER老师模型则作为下一阶段的Bert
‑
NER学生模型;1.9)重复迭代一定次数(例如3
‑
300次),得到最终的Bert
‑
NER模型。3.根据权利要求1所述的要素抽取方法,其特征在于,步骤2)更具体地包括:2.1)对于具有n个文档的文档数据,其含有m个要素标签类别,要素标签类别的集合:{C1,C2,C3,...,C
m
‑1,C
m
};对文档数据进行词频统计,得到要素标签类别的数据词频映射:F1(C
i
)=argmaxα(x=w,y=C
i
);其中x为文档中的字符,w代表某一具体字符内容,y代表要素标签类别,C
i
表示第i个要素标签类别;其中,Bert辅助模型直接使用开源的Bert
‑
base模型,由12层transformer
‑
encoder组成;2.2)对n个文档的所有要素标签预测结果进行词频统计,得到要素标签类别的生成词频映射:F2(C
i
)=argmaxβ(x=w,y=C
i
);其中x为文档中的字符,w代表某一具体字符内容,y代表要素标签类别;2.3)使用数据词频映射与生成词频映射得到综合词频:F(C
i
)=η
1*
F1(C
i
)+η
2*
F2(C
i
);其中η1和η2为设置的权重,取值为0.2
‑
0.8;2.4)使用Bert
‑
NER模型对标签C
i
综合词频处于前k个的元素E
i
={e1,e2,e3,...,e
k
‑1,e
k
}进行编码,其中k为设置的数量,取值为1
‑
10;再对所有编码取平均得到词频token:T(C
i
)=Avg(Bert
‑
NER(E
i
))。4.根据权利要求1所述的要素抽取方法,其特征在于,步骤3)更具体地包括:3.1)对文档数据具有的要素标签类别C={C1,C2,C3,...,C
m
‑1,C
m
}:对于专业领域标签层次化显著的特点,设计一种专业领域分层标签,对于父级标签C
i
,其包含多个子标签(C1,C2,C3,...,C
k
‑1,C
k
),那么我们则将其标签设定为Pos_tag+Sup_Type_tag+Type_tag;其中Sup_Type_tag可为零层或一层或多层(1
‑
20层,优选1
‑
10层,更优选2
‑
5层);3.2)对要素标签类别拆解后得到三部分Pos_tag、Sup_Type_tag和Type_tag;3.3)先对Pos_tag、Sup_Type_tag和Type_tag分别进行自然语言转化,得到Pos_pre_word、Sup_Type_pre_word和Type_pre_word;
3.4)再根据标注样式转化为自然语言注释形式,得到Pos_word、Sup_Type_word和Type_word;3.5)将Pos_word、Sup_Type_word和Type_word输入Bert辅助模型得到自标签token:G(C)=(Bert[Pos_word]+Bert[Sup_Type_word]+Bert...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。