【技术实现步骤摘要】
一种基于Roberta
‑
BiLSTM模型的类案检索方法
[0001]本专利技术涉及自然语言处理
,具体为一种基于Roberta
‑
BiLSTM模型的类案检索方法。
技术介绍
[0002]最高人民法院对类案的解释是指与待决案件在基本事实、争议焦点、法律适用问题等方面具有相似性,并且已经过人民法院裁判生效的案件。随着信息科技的发展,人工智能逐渐融入到了生活之中,人们的法律保护意识越来越高,从类案中学习法律知识已成为人们提升法律意识的重要途径。类案检索的目的是通过已解决的相似案件给用户提供可参考的意见和方法。目前的类案检索方法主要是基于词频技术和基于深度学习检索方法,但这两类方法仍存在着一些不足:
[0003]1)基于词频技术检索方法有tf
‑
idf、BM25算法,通过提取查询案件和被检索案件中的相同词语的频率,来评估两种案件的相似度,尽管对文本长度没有限制,但是忽略了文本的上下文信息,导致检索出的候选案件与查询案件的相似度不够精确。
[0004]2)基于深度学习的检索方法,如基于传统的CNN和LSTM模型对于案件文本信息的表示效果有限,现今大火的Bert和Roberta预训练模型通过自注意力机制虽然可以更好的学习文本中的上下文信息,但是对文本长度存在着限制,从而无法获取文本的全部信息。
[0005]3)同时目前类案检索平台的搜索条件过于苛刻,普通用户往往无法精确描述案件关键信息,导致平台检索难度较大,有时候检索出的案件无法满足普通用户需 ...
【技术保护点】
【技术特征摘要】
1.一种基于Roberta
‑
BiLSTM模型的类案检索方法,其特征在于,包括以下步骤:步骤一:文本预处理,对查询案件文本text
query
和候选检索案件文本text
candidate
进行预处理;步骤二:token拼接,将所述预处理后的查询案件文本和候选检索案件文本传入Roberta预训练模型中进行token序列标注,利用预设算法提取出最终查询案件文本和候选检索案件文本的token块,将查询案件文本和候选检索案件文本的token块一对一拼接,传入到Roberta模型中提取出查询案件文本和候选检索案件文本的语义特征;步骤三:BiLSTM网络处理,将所述查询案件文本特征和候选检索案件文本语义特征输入BiLSTM网络中,得到最终的查询文本特征和候选检索案件文本语义特征;步骤四:全连接与池化,将所述语义特征输入全连接层神经网络和最大池化层,输出检索结果。2.根据权利要求1所述的一种基于Roberta
‑
BiLSTM模型的类案检索方法,其特征在于,所述对查询案件文本和候选检索案件文本采取同样操作进行预处理,所述候选检索案件文本从中国裁判文书网中获取,并为每一个查询案件文本设置多个候选检索案件文本,将案件文本根据语句条数分为5块文本内容{text1,text2,text3,text4,text5},固定选取案件中的第一块文本内容作为基础样本,提取出与text1相似度最高的一块文本内容text
max
并与text1拼接形成最终的查询案件文本text
query
和候选检索案件文本text
candidate
,具体计算过程如下面公式所示:text
max
=max(BM25(text1,text
i
)),i=(2,3,4,5)text=text1+text
max
。3.根据权利要求2所述的一种基于Roberta
‑
BiLSTM模型的类案检索方法,其特征在于,所述提取文本内容text
max
的方法为BM25算法。4.根据权利要求1所述的一种基于Roberta
‑
BiLSTM模型的类案检索方法,其特征在于,所述步骤二包括以下步骤:1)将步骤1所抽取的text
query
和text
candidate
传入Roberta预训练模型进行token序列标注得到查询案件文本的token序列:其中,l
query
表示查询案件文本的长度;以及候选检索案件文本的token序列:其中,l
candidate
...
【专利技术属性】
技术研发人员:孙莉莉,胡智慧,梅世杰,
申请(专利权)人:武汉百智诚远科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。