一种基于Roberta-BiLSTM模型的类案检索方法技术

技术编号:36399259 阅读:46 留言:0更新日期:2023-01-18 10:05
本发明专利技术公开了一种基于Roberta

【技术实现步骤摘要】
一种基于Roberta

BiLSTM模型的类案检索方法


[0001]本专利技术涉及自然语言处理
,具体为一种基于Roberta

BiLSTM模型的类案检索方法。

技术介绍

[0002]最高人民法院对类案的解释是指与待决案件在基本事实、争议焦点、法律适用问题等方面具有相似性,并且已经过人民法院裁判生效的案件。随着信息科技的发展,人工智能逐渐融入到了生活之中,人们的法律保护意识越来越高,从类案中学习法律知识已成为人们提升法律意识的重要途径。类案检索的目的是通过已解决的相似案件给用户提供可参考的意见和方法。目前的类案检索方法主要是基于词频技术和基于深度学习检索方法,但这两类方法仍存在着一些不足:
[0003]1)基于词频技术检索方法有tf

idf、BM25算法,通过提取查询案件和被检索案件中的相同词语的频率,来评估两种案件的相似度,尽管对文本长度没有限制,但是忽略了文本的上下文信息,导致检索出的候选案件与查询案件的相似度不够精确。
[0004]2)基于深度学习的检索方法,如基于传统的CNN和LSTM模型对于案件文本信息的表示效果有限,现今大火的Bert和Roberta预训练模型通过自注意力机制虽然可以更好的学习文本中的上下文信息,但是对文本长度存在着限制,从而无法获取文本的全部信息。
[0005]3)同时目前类案检索平台的搜索条件过于苛刻,普通用户往往无法精确描述案件关键信息,导致平台检索难度较大,有时候检索出的案件无法满足普通用户需求。
[0006]基于上述问题,申请人设计并提出了一种基于Roberta

BiLSTM模型的类案检索方法。

技术实现思路

[0007]本专利技术的目的在于提供一种基于Roberta

BiLSTM模型的类案检索方法,以解决上述
技术介绍
中提出的现有的类案检索方法中存在的相似度不够精确、对文本长度存在着限制的问题。
[0008]为实现上述目的,本专利技术提供如下技术方案:一种基于Roberta

BiLSTM模型的类案检索方法,其特征在于,包括以下步骤:
[0009]步骤一:对查询案件文本text
query
和候选检索案件文本text
candidate
进行预处理;
[0010]步骤二:将所述预处理后的查询案件文本和候选检索案件文本传入Roberta预训练模型中进行token序列标注,利用预设算法提取出最终查询案件文本和候选检索案件文本的token块,将查询案件文本和候选检索案件文本的token块一对一拼接,传入到Roberta模型中提取出查询案件文本和候选检索案件文本的语义特征;
[0011]步骤三:将所述查询案件文本特征和候选检索案件文本语义特征输入BiLSTM网络中,得到最终的查询文本特征和候选检索案件文本语义特征;
[0012]步骤四:将所述语义特征输入全连接层神经网络和最大池化层,输出检索结果。
[0013]作为一种优选的技术方案,对查询案件文本和候选检索案件文本采取同样操作进行预处理,所述候选检索案件文本从中国裁判文书网中获取,并为每一个查询案件文本设置多个候选检索案件文本,将案件文本根据语句条数分为5块文本内容{text1,text2,text3,text4,text5},固定选取案件中的第一块文本内容作为基础样本,提取出与text1相似度最高的一块文本内容text
max
并与text1拼接形成最终的查询案件文本text
query
和候选检索案件文本text
candidate
,具体计算过程如下面公式所示:
[0014]text
max
=max(BM25(text1,text
i
)),i=(2,3,4,5)
[0015]text=text1+text
max

[0016]作为一种优选的技术方案提取文本内容text
max
的方法为BM25算法。
[0017]作为一种优选的技术方案步骤二包括以下步骤:
[0018]1)将步骤1所抽取的text
query
和text
candidate
传入Roberta预训练模型进行token序列标注得到查询案件文本的token序列:
[0019][0020]其中,l
query
表示查询案件文本的长度;
[0021]以及候选检索案件文本的token序列:
[0022][0023]其中,l
candidate
表示查询案件文本的长度;
[0024]4)将token
query
以每份256个token进行滑动窗口切分,每个窗口不重合,得到查询案件文本的token块集合
[0025]chunk
query
={query1,query2,

,query
n
},
[0026]其中,n表示token
query
被切分后的总块数,
[0027]同时将token
candidate
也以每份256个token进行滑动窗口切分,每个窗口重合64个token,得到候选检索案件文本的token块集合:
[0028]chunk
candidate
={candidate1,candidate2,

,candidate
m
},
[0029]其中,m表示token
candidate
被切分后的总块数;
[0030]5)利用余弦相似度计算出与chunk
query
集合中相似度最高的candidate,得到候选检索案件文本最终的token块集合:
[0031][0032]具体计算过程如下所示:
[0033][0034]4)将chunk
query
和一对一拼接,利用[SEP]字符将两段区分开形成新的token序列x={x1,x2,

,x
n
},将x传入到Roberta预训练模型中得到查询案件文本和候选检索案件文本的语义特征e={e1,e2,

,e
n
},e的特征维度是n
×
512
×
768,具体计算过程如下所示:
[0035][0036]其中,[CLS]表示相似度的token,[SEP]表示输入文本之间的分隔符token。
[0037]作为一种优选的技术方案,步骤三包括:将步骤二获得的语义特征e输入到BiLSTM网络中,利用BiLSTM的记忆功能提取出e之间的语义相关性,其中BiLSTM输出层为200,得到最终的查询文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Roberta

BiLSTM模型的类案检索方法,其特征在于,包括以下步骤:步骤一:文本预处理,对查询案件文本text
query
和候选检索案件文本text
candidate
进行预处理;步骤二:token拼接,将所述预处理后的查询案件文本和候选检索案件文本传入Roberta预训练模型中进行token序列标注,利用预设算法提取出最终查询案件文本和候选检索案件文本的token块,将查询案件文本和候选检索案件文本的token块一对一拼接,传入到Roberta模型中提取出查询案件文本和候选检索案件文本的语义特征;步骤三:BiLSTM网络处理,将所述查询案件文本特征和候选检索案件文本语义特征输入BiLSTM网络中,得到最终的查询文本特征和候选检索案件文本语义特征;步骤四:全连接与池化,将所述语义特征输入全连接层神经网络和最大池化层,输出检索结果。2.根据权利要求1所述的一种基于Roberta

BiLSTM模型的类案检索方法,其特征在于,所述对查询案件文本和候选检索案件文本采取同样操作进行预处理,所述候选检索案件文本从中国裁判文书网中获取,并为每一个查询案件文本设置多个候选检索案件文本,将案件文本根据语句条数分为5块文本内容{text1,text2,text3,text4,text5},固定选取案件中的第一块文本内容作为基础样本,提取出与text1相似度最高的一块文本内容text
max
并与text1拼接形成最终的查询案件文本text
query
和候选检索案件文本text
candidate
,具体计算过程如下面公式所示:text
max
=max(BM25(text1,text
i
)),i=(2,3,4,5)text=text1+text
max
。3.根据权利要求2所述的一种基于Roberta

BiLSTM模型的类案检索方法,其特征在于,所述提取文本内容text
max
的方法为BM25算法。4.根据权利要求1所述的一种基于Roberta

BiLSTM模型的类案检索方法,其特征在于,所述步骤二包括以下步骤:1)将步骤1所抽取的text
query
和text
candidate
传入Roberta预训练模型进行token序列标注得到查询案件文本的token序列:其中,l
query
表示查询案件文本的长度;以及候选检索案件文本的token序列:其中,l
candidate
...

【专利技术属性】
技术研发人员:孙莉莉胡智慧梅世杰
申请(专利权)人:武汉百智诚远科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1