System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于中文语义增强的法律文书实体抽取方法技术_技高网

一种基于中文语义增强的法律文书实体抽取方法技术

技术编号:43338266 阅读:18 留言:0更新日期:2024-11-15 20:33
本发明专利技术公开了一种基于中文语义增强的法律文书实体抽取方法,涉及司法智能化领域。本发明专利技术基于注意力机制融合形旁、含分词信息的字级别信息,增强生僻字表征能力;引入实体感知的编码修正器,自适应学习实体类别在高维语义空间的编码,增大不同实体类别间的编码差异,增强实体区分度。本发明专利技术满足法律文书实体抽取的多样化需求,为法律服务行业的信息化和智能化发展提供了有力支持,具有广泛的产业化应用前景。

【技术实现步骤摘要】

本专利技术涉及司法智能化领域,尤其涉及一种基于中文语义增强的法律文书实体抽取方法


技术介绍

1、近年来,人工智能和深度学习在各个垂直领域应用越来越广。在司法领域,人工智能的研究主要围绕在法理、伦理问题、算法风险等,如何将法律与技术深度融合打造出逻辑推理和决策能力的智能化应用是智慧司法的现实需求。面对海量复杂的法律文书中,智能化实体抽取可以很大程度上解决标注不准、识别不清、效率低下等问题。更进一步,实体抽取在法律问答、关系抽取、司法判决预测、类案检索、司法知识图谱构建等任务中具有重要作用。

2、实体抽取需要将针对任意长度文本输入,依据提取的词元表征识别出不同实体的边界与类型。这序列标记任务,需要对字词的嵌入表示有深刻的挖掘。在bert(bidirectional encoder representations from transformers,基于transfomers的双向编码器)等预训练模型涌现后,得益于其在在广泛文本学习后获得的语义挖掘与语法掌握能力,中文实体抽取的字嵌入获取转向通过预训练模型提取。

3、在司法领域,中文实体抽取沿用bert+bilstm+crf的框架,如图1所示,使用bert等预训练模型提取字嵌入,lstm(bidirectional long short-term memory,长短时记忆网络)联系上下文学习利于任务的语义信息,crf(conditional random field,条件随机场)则可以结合实体类别标签之间的转移关系纠正标注,得到逻辑顺畅的实体识别序列标注结果。该方法在来源于裁判文书网、公开涉毒类案件、起诉意见书等中文法律文书数据集上测试表现不错。但与通用领域不同的是,中文实体抽取在司法领域面临更大挑战。首先,由于案件类型以及具体场景的差异,法律文书中的实体往往涉及生僻字,这些字嵌入仅依赖预训练模型提取效果可能不理想,需要额外信息增强。其次,法律实体抽取任务面向业务应用,需要更细粒度的实体划分,如犯罪嫌疑人与受害人,而在通用领域他们均属于人名,因此这需要模型有更高的实体区分度。另外,司法领域的高严谨导致实体描述更加规范细致,通用领域的“xx市xx村“会被描述为”xx街道xx小区xx单元xx室“,大跨度实体降低了通用领域模型的性能。

4、因此,本领域的技术人员致力于开发一种基于中文语义增强的法律文书实体抽取方法。本专利技术方案jmcner(judicial multimodal chinese named entity recognition,司法多模态中文命名实体识别)结合多模态信息增强字嵌入表征质量,并引入实体感知模块修正编码,使得实体区分度进一步拉大以适配司法领域实体抽取的特殊性。


技术实现思路

1、有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是提高中文实体抽取在司法领域的提取效果、拉大实体区分度。

2、为实现上述目的,本专利技术提供了一种基于中文语义增强的法律文书实体抽取方法,包括多模态特征融合表征,基于注意力机制融合形旁、分词信息的字级别信息。

3、进一步地,利用bert类模型预留的词元位置作为分词符,提取结合分词信息的字嵌入。

4、进一步地,提取形旁特征丰富生僻字表征。

5、进一步地,表征以字嵌入为主,形旁特征为辅助,获得信息增强的融合表征。

6、进一步地,包括以下步骤:

7、步骤1、多模态特征融合表征;

8、步骤2、高维语义编码;

9、步骤3、实体类别解码。

10、进一步地,所述步骤1,包括以下步骤:

11、步骤1.1、法律文本预处理;

12、步骤1.2、多模态特征提取;

13、步骤1.3、多模态特征融合。

14、进一步地,所述法律文本预处理,包括文本规范化、形旁提取、分词信息引入。

15、进一步地,包括实体感知的编码修正器。

16、进一步地,所述实体感知的编码修正器,为实体类别初始化在高维语义空间的编码。

17、进一步地,所述实体感知的编码修正器,自适应学习实体类别在高维语义空间的编码,增大不同实体类别间的编码差异。

18、司法领域法律文书的特异性文本分布,仅依赖预训练模型对生僻字表征的提取质量不尽如人意,需要额外信息增强。本专利技术基于注意力机制融合形旁、含分词信息的字级别信息,极大增强生僻字表征能力。

19、多模态特征提取:分词信息增强在中文领域已有广泛应用,词信息有助于增强字义、消除歧义,本专利技术利用bert类模型预留的词元位置作为分词符,依靠预训练模型的语义挖掘能力提取结合分词信息的字嵌入;另一方面,汉字作为象形字其形状也可以表义,其中的形旁与字义有关,提取形旁特征可以丰富生僻字表征,同时也避免了整体字形的学习繁重代价。

20、多模态特征融合:最终表征以字嵌入为主,而形旁特征为辅助增强,结合注意力机制背后的机制原理,以形旁特征为查询、字嵌入为键值对的策略融合表征,增强相同形旁字的嵌入相似性,并利用残差结构保障字嵌入的核心地位,从而最终获得信息增强的融合表征。

21、本专利技术针对多模态信息特征做消融实验,与bert+crf基线对比,并进一步对比仅有分词信息或形旁信息的情况,在司法数据集上验证了多模态特征有效性。针对多模态特征融合,对比了其余方法普遍使用的特征拼接以及多层感知机线性关系聚合,本专利技术使用的注意力机制得到的融合表征获得更好的效果。

22、法律文书中的实体抽取任务要求类别粒度更精细、表述范围更精确。如犯罪嫌疑人与受害人的细粒度区分或具体到门牌号的地址信息,与通用领域相比,模型在这些细微差异的实体边界识别与划分上存在挑战。本专利技术引入实体感知的编码修正器,自适应学习各实体类别在高维语义空间的编码,以此为依据调整编码,增大不同实体类别间的编码差异,从而增强实体区分度。法律实体的细粒化与精确化需要方案有更高的实体区分度,为此,本专利技术为每个实体类别初始化一个在高维语义空间的编码,此前的高质量融合表征经过bilstm学习句法语义信息后的编码与之计算相似度,在语义空间拉近与其可能实体类别之间的距离,从而增大其与其他实体编码的距离,最终起到增强实体区分度的作用,实体边界也会随之更加清晰明显。本专利技术对比有无编码修正器的性能,说明该模块的有效性。

23、本专利技术使用高度模块化的模式开发应用,确保系统的高可用性与可扩展性。主要包括数据预处理模块、多模态融合表征模块、高维语义编码模块、实体类别解码模块以及应用接口模块。通过收集大量裁判文书网的相关标注数据集,采用有监督学习方法进行模型训练,提升模型对于司法垂直领域的适应能力。系统可以在云端或本地部署,满足不同场景需求,可提供api(application programming interface,应用编程接口)接口,方便集成到现有的司法信息系统中。

24、本专利技术与现有技术相比较,具有如下显而易见的实质性特点和显著优点:<本文档来自技高网...

【技术保护点】

1.一种基于中文语义增强的法律文书实体抽取方法,其特征在于,包括多模态特征融合表征,基于注意力机制融合形旁、分词信息的字级别信息。

2.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,利用BERT类模型预留的词元位置作为分词符,提取结合分词信息的字嵌入。

3.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,提取形旁特征丰富生僻字表征。

4.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,表征以字嵌入为主,形旁特征为辅助,获得信息增强的融合表征。

5.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,包括以下步骤:

6.如权利要求5所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,所述步骤1,包括以下步骤:

7.如权利要求6所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,所述法律文本预处理,包括文本规范化、形旁提取、分词信息引入。

8.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,包括实体感知的编码修正器。

9.如权利要求8所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,所述实体感知的编码修正器,为实体类别初始化在高维语义空间的编码。

10.如权利要求8所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,所述实体感知的编码修正器,自适应学习实体类别在高维语义空间的编码,增大不同实体类别间的编码差异。

...

【技术特征摘要】

1.一种基于中文语义增强的法律文书实体抽取方法,其特征在于,包括多模态特征融合表征,基于注意力机制融合形旁、分词信息的字级别信息。

2.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,利用bert类模型预留的词元位置作为分词符,提取结合分词信息的字嵌入。

3.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,提取形旁特征丰富生僻字表征。

4.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,表征以字嵌入为主,形旁特征为辅助,获得信息增强的融合表征。

5.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,包括以下步骤:

6.如权利要求5所...

【专利技术属性】
技术研发人员:潘理李长青
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1