一种基于中文语义增强的法律文书实体抽取方法技术

技术编号:43338266 阅读:28 留言:0更新日期:2024-11-15 20:33
本发明专利技术公开了一种基于中文语义增强的法律文书实体抽取方法,涉及司法智能化领域。本发明专利技术基于注意力机制融合形旁、含分词信息的字级别信息,增强生僻字表征能力;引入实体感知的编码修正器,自适应学习实体类别在高维语义空间的编码,增大不同实体类别间的编码差异,增强实体区分度。本发明专利技术满足法律文书实体抽取的多样化需求,为法律服务行业的信息化和智能化发展提供了有力支持,具有广泛的产业化应用前景。

【技术实现步骤摘要】

本专利技术涉及司法智能化领域,尤其涉及一种基于中文语义增强的法律文书实体抽取方法


技术介绍

1、近年来,人工智能和深度学习在各个垂直领域应用越来越广。在司法领域,人工智能的研究主要围绕在法理、伦理问题、算法风险等,如何将法律与技术深度融合打造出逻辑推理和决策能力的智能化应用是智慧司法的现实需求。面对海量复杂的法律文书中,智能化实体抽取可以很大程度上解决标注不准、识别不清、效率低下等问题。更进一步,实体抽取在法律问答、关系抽取、司法判决预测、类案检索、司法知识图谱构建等任务中具有重要作用。

2、实体抽取需要将针对任意长度文本输入,依据提取的词元表征识别出不同实体的边界与类型。这序列标记任务,需要对字词的嵌入表示有深刻的挖掘。在bert(bidirectional encoder representations from transformers,基于transfomers的双向编码器)等预训练模型涌现后,得益于其在在广泛文本学习后获得的语义挖掘与语法掌握能力,中文实体抽取的字嵌入获取转向通过预训练模型提取。

3、在司法领域,中文实体本文档来自技高网...

【技术保护点】

1.一种基于中文语义增强的法律文书实体抽取方法,其特征在于,包括多模态特征融合表征,基于注意力机制融合形旁、分词信息的字级别信息。

2.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,利用BERT类模型预留的词元位置作为分词符,提取结合分词信息的字嵌入。

3.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,提取形旁特征丰富生僻字表征。

4.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,表征以字嵌入为主,形旁特征为辅助,获得信息增强的融合表征。

5.如权利要求1所述的基于中文...

【技术特征摘要】

1.一种基于中文语义增强的法律文书实体抽取方法,其特征在于,包括多模态特征融合表征,基于注意力机制融合形旁、分词信息的字级别信息。

2.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,利用bert类模型预留的词元位置作为分词符,提取结合分词信息的字嵌入。

3.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,提取形旁特征丰富生僻字表征。

4.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,表征以字嵌入为主,形旁特征为辅助,获得信息增强的融合表征。

5.如权利要求1所述的基于中文语义增强的法律文书实体抽取方法,其特征在于,包括以下步骤:

6.如权利要求5所...

【专利技术属性】
技术研发人员:潘理李长青
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1