一种文书检索方法、装置、设备及介质制造方法及图纸

技术编号:23704851 阅读:30 留言:0更新日期:2020-04-08 11:10
本申请实施例公开了一种文书检索方法,利用该语义向量生成模型对用户输入或上传的第一文书进行处理生成对应的第一语义向量,对文书库中存储的文书进行处理生成对应的第二语义向量,然后计算第一语义向量与各个第二语义向量之间的相似度,进而基于相似度计算结果,在文书库存储的文书中确定检索结果。该方法不再局限于基于文本相似度确定检索结果,而是利用语义向量生成模型实现基于语义相似度确定检索结果,由于语义特征相比文本特征更能够反映文书的实质内容,因此,该方法能够有效地提高文书检索的准确度,保证检索到的文书满足用户实际的检索意图。

A document retrieval method, device, equipment and medium

【技术实现步骤摘要】
一种文书检索方法、装置、设备及介质
本申请涉及信息搜索
,尤其涉及一种文书检索方法、装置、设备及介质。
技术介绍
文书通常指公文、书信、契约等文本文件,相应地,文书检索是指将一篇文书作为检索条件,在对应的文书库中检索与该文书相关或相似的文书。目前文书检索技术在司法领域应用的较多,主要用于检索法律文书,此处的法律文书指的是我国公安机关(含国家安全机关)、检察院、法院、监狱、劳改机关、公正机关以及仲裁机关等单位依法制作的处理各类诉讼案件和非诉讼案件的法律文书,以及案件当事人、律师和律师事务所自书或代书的具有法律效力或法律意义的文书。具体的,法官在断案的过程中,经常需要将待判决的法律文书作为检索条件,在用于存储法律文书的文书库中检索与其相关的法律文书,将检索到的法律文书作为参考资料,借鉴这些法律文书确定最终的判决结果。此外,法律研究人员也经常需要通过检索相关法律文书,针对某项法律法规进行具体的研究。目前主流的文书检索方法包括两种:第一种是使用ElasticSearch(ES)系统进行文书检索,具体的,该ES系统基于用户上本文档来自技高网...

【技术保护点】
1.一种文书检索方法,其特征在于,所述方法包括:/n获取第一文书;/n将所述第一文书输入至语义向量生成模型,获取所述语义向量生成模型输出的第一语义向量;所述语义向量生成模型是以文书作为输入且以表征语义特征的语义向量作为输出的神经网络模型;/n计算所述第一语义向量与文书库中存储的文书对应的第二语义向量之间的相似度;所述第二语义向量是利用所述语义向量生成模型对所述文书库中存储的文书进行处理得到的;/n根据各个所述第二语义向量与所述第一语义向量之间的相似度,在所述文书库存储的文书中确定检索结果。/n

【技术特征摘要】
1.一种文书检索方法,其特征在于,所述方法包括:
获取第一文书;
将所述第一文书输入至语义向量生成模型,获取所述语义向量生成模型输出的第一语义向量;所述语义向量生成模型是以文书作为输入且以表征语义特征的语义向量作为输出的神经网络模型;
计算所述第一语义向量与文书库中存储的文书对应的第二语义向量之间的相似度;所述第二语义向量是利用所述语义向量生成模型对所述文书库中存储的文书进行处理得到的;
根据各个所述第二语义向量与所述第一语义向量之间的相似度,在所述文书库存储的文书中确定检索结果。


2.根据权利要求1所述的方法,其特征在于,所述语义向量生成模型包括:级联的分词模块、词向量确定模块以及语义向量确定模块;
所述分词模块用于对文书进行分词处理,得到第一分词序列;
所述词向量确定模块用于将所述第一分词序列中的各个分词分别映射为对应的词向量;所述词向量用于表征与自身对应的分词的语义特征;
所述语义向量确定模块用于对所述第一分词序列中各个分词对应的词向量进行卷积处理,得到语义向量。


3.根据权利要求2所述的方法,其特征在于,所述语义向量生成模型还包括:分词截取模块;
所述分词截取模块用于按照预设截取规则,从所述第一分词序列中截取预设数量的分词组成第二分词序列;
则所述词向量确定模块具体用于:
将所述第二分词序列中的各个分词分别映射为对应的词向量;
则所述语义向量确定模块具体用于:
对所述第二分词序列中的各个分词对应的词向量进行卷积处理,得到语义向量。


4.根据权利要求2所述的方法,其特征在于,所述词向量确定模块包括Word2vec模型;且,所述语义向量确定模块包括Inception模型。


5.根据权利要求1至4任一项所述的方法,其特征在于,所述第一文书为法律文书;
则在将所述第一文书输入至语义向量生成模型之前,所述方法还包括:
根据所述第一文书中各个段落对应的标签,确定案情描述...

【专利技术属性】
技术研发人员:张广鹏
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1