【技术实现步骤摘要】
一种基于信息抽取和图模型的法律长文本相似度计算方法
[0001]本专利技术涉及一种基于信息抽取和图模型的法律长文本相似度计算方法,属于自然语言处理领域。
技术介绍
[0002]语义依存分析(Semantic Dependency Parsing,SDP),是分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过词汇所承受的语义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。同时,语义依存分析不受句法结构的影响,将具有直接语义关联的语言单元直接连接依存弧并标记上相应的语义关系。
[0003]BERT(Bidirectional Encoder Representations from Transformers)已被证明是一种非常强大的方法,可以显著提高各种自然语言处理任务的性能,尤其是在自然语言理解任务中具有非常显著的优势,而文本分类本质上也是一种自然语言理解任务 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种基于信息抽取和图模型的法律长文本相似度计算方法,该方法包括以下步骤:步骤1:实体和行为抽取。本发明使用LTP语义依存分析树进行实体抽取和行为抽取。对于实体抽取,本发明提出使用LTP语义依存分析中的主体角色、客体角色,以及情景角色中的工具和材料来实现。对于行为抽取,本发明提出以“主体角色+动作+客体角色”的结构,构建出语义依存分析子树来实现。步骤2:文本二分类。对于抽取出来的行为,需要通过文本分类的方法,将过错行为从行为中筛选出来。本发明在预训练模型RoBERTa
‑
wwm
‑
ext
‑
large的基础上进行微调,完成文本的二分类任务,将过错行为从行为中筛选出来。步骤3:构建图模型。在前两步中抽取出了实体和行为,并对行为进行了筛选得到了过错行为后,需要进行图模型的构建。首先构建出A的实体和B的实体之间的图模型,接着再构建出A的行为和B的行为之间的图模型。步骤4:基于图模型计算相似度。相似度计算方法包含两个层级的计算,一个是求解实体和实体之间的相似度、行为和行为之间的相似度,另一个是根据上一步构建的图模型计算出两个长文本之间的相似度。2.如权利要求1所属方法,其特征在于,步骤1提出使用LTP语义依存分析树进行实体抽取和行为抽取。语义依存分析(SDP)是分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。LTP的语义依存分析的模型是Electra Small+BiAffine,在CCL2020数据集上的准确率达到76.62%,在同类算法中具有非常领先的效果。对于实体抽取,本发明创新性地使用LTP语义依存分析中的主体角色、客体角色,以及情景角色中的工具和材料来实现,即包括施事、当事、受事、客事、涉事、系事、工具、材料。对于行为抽取,本发明创新性地提出以“主体角色+动作+客体角色”的结构来实现,将LTP语义依存分析树得到的主体角色关系和客体角色关系,构成若干以动作为核心的子树,按照“主体角色+动作+客体角色”的结构来抽取出行为。3.如权利要求1所属方法,其特征在于,步骤2提出使用在预训练模型RoBERTa
‑
wwm
‑
ext
技术研发人员:贾海涛,唐小龙,林思远,李家伟,任利,周焕来,贾宇明,许文波,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。