一种面向司法文本的搜索排序方法及系统技术方案

技术编号:22330165 阅读:39 留言:0更新日期:2019-10-19 12:17
一种面向司法文本的搜索排序方法及系统,其中该方法包括(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,利用分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:根据Query和Doc的匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到Query和Doc的匹配score,根据匹配score大小进行排序。

【技术实现步骤摘要】
一种面向司法文本的搜索排序方法及系统
本专利技术属于自然语言处理领域,涉及一种面向司法文本的搜索排序方法及系统。
技术介绍
搜索排序算法的核心是如何计算搜索输入(Query)和目标文档(Doc)之间的关系并依此对Doc进行排序。专利CN201710263575.6是通过预设排序规则将检索到的文档进行排序,预设规则需要花费大量的时间来分析规则模板的可行性,并且用户的输入和意图具有高度不确定性很难穷尽所有的排序规则,排序结果具有一定的不可预测性。专利CN201710348412.8提取关键词并制作同义词词典扩大检索结果,再用预设排序规则进行排序。专利CN201710298924.8是提取Query和Doc的主题,并计算主题之间的相似度作为排序标准。目前常用的搜索排序方法可分为基于Query和Doc之间相似性和相关性的两种方法。专利CN201811117761.X通过自注意机制计算句子和段落之间的向量表示,然后计算向量之间的相似性作为排序标准,专利CN201580019941.2采用深度学习网络计算具有上下文特征的Query和Doc的语义向量,通过语义向量的相似性来进行排序。涉及文本相关性排序的专利不多,论文2983323.2983769(DOI)提出DRMM算法,将Query和完整Doc之间单词的匹配直方图作为神经网络输入计算全局匹配结果来进行排序,但是短Query和长Doc之间不可避免的会出现不匹配单词远远多于匹配单词,造成直方图分布严重不均衡从而影响排序结果,并且基于全局匹配结果忽略了局部匹配结果的重要性。论文3132847.3132914(DOI)介绍了一种deeprank相关性排序方法,利用Query中单词出现在doc中的片段作为相关上下文,然后根据相关上下文计算局部相关性作为文档排序标准,用Query和Doc中出现的相同词来提取相关性上下文容易出现错选和漏选,仅仅用局部信息判断匹配结果忽略了全局信息的重要性。基于相似性的排序方法一般用于同质(两个句子之间或者两个文章之间)的两个文本,判断两段文本之间语义是否相似。而基于相关性的匹配方法是不同质(例如:问题和文档之间)的文本全局或局部的匹配关系。司法文本数据像裁判文书,动辄几千字,多则几百万字,但是在进行检索时的Query往往是几十个字甚至是几个字,因此Query和Doc长度严重不对应时采用相似性方法来进行检索排序时呈现给用户的结果可能并不是很好。
技术实现思路
为了克服现有技术中存在的不足,本专利技术在于提供了一种匹配结果更可靠、排序结果更加精确、加快算法运行速度的面向司法文本的搜索排序方法及系统。本专利技术采用的技术方案是:一种面向司法文本的搜索排序方法,其步骤如下:(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再将分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:在Query和Doc的匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。进一步,步骤(1)中的分词处理包括:构建司法领域分词词典,并采用jieba分词对司法文本数据Doc进行分词处理。进一步,步骤(1)中的词向量的训练方法为word2vec训练方法。进一步,步骤(2)中相似度匹配矩阵M构建方法如公式(1);其中,q为Query中单词个数,d为Doc中单词个数,Qi为Query中第i个单词的词向量,Dj为Doc中第j个单词的词向量,mij∈[-1,1]是Qi和Dj的余弦相似度值越大相似度越高。进一步,步骤(3)中局部相关性文本片段的提取方式如下:1)设定模板T,所述模板T的宽度为Query的单词个数,长度由Query的长度和具体应用场景决定,计算模板内Query和Doc的综合匹配向量:模板T在步骤(2)中匹配矩阵M中移动,按照公式(2)计算匹配向量S,其中,w为模板长度,k为下标,sk为Query和Doc中从单词Dk到单词Dk+w的文本片段的综合匹配得分;d为Doc的单词个数,max()为取最大值函数,M·k是匹配矩阵M中所有的行第k列,max(M·k)为求第k列的最大值即取最强特征避免其他干扰项,S为Query和Doc的匹配向量;2)根据匹配向量S截取局部相关性文本片段:在匹配向量S中选取n个长度为w的文本片段;首先计算向量S的均值S0=mean(S),计算S>S0时S所有的峰值及峰值对应的下标,取峰值对应的文本片段拼接在一起获得最终相关性文本Ds,取峰值对应文本片段的匹配矩阵拼接在一起获得矩阵Ms。进一步,如果峰值个数小于n则取全部峰值,如果峰值个数大于n,则由大到小取n个峰值。进一步,步骤(4)中的特征向量F的构建过程如下:I、计算Ms中单词统计信息:匹配矩阵Ms中的值mij∈[-1,1],代表Query中第i个单词和Doc中第j个单词的语义相似度,mij越大相似度越高,将[-1,1]划分若干区间,统计矩阵Ms中的值落入各区间的个数,获得特征Fm;II、根据Ms计算词共现个数:采用宽度为q(Query中单词个数)长度为l的模板,l≥3,统计模板中同时存在2个和3个相似度值高于m0的个数,m0>0.5为相似度阈值;模板内词共现特征计算如公式(3)所示,f2为两个词在模板内共现特征,f3为3个词在模板内共现特征,i,j,k为下标,m0为相似度阈值,max()为取最大值函数,min()为取最小值函数,1{·}为大括号内值为真(同时满足括号内不等式成立)时取值为1,否则取值为0,Ms为步骤(3)中获得的相关性文本Ds的匹配矩阵,Ms·i表示矩阵中所有行第i列的值;Ms中词共现特征如公式(4)计算,F2是Doc中两个词的共现特征,F3是Doc中三个词的共现特征,∑·是求和函数,F是最终获得的特征向量。进一步,mij的区间划分采用不等分的形式进行划分,有利于将不同的特征层次化,区间的划分可按照实际业务场景确定有很多不同的划分形式。进一步,步骤(5)中的神经网络模型由公式(5)表示,z(x)为通用的前馈神经网络模型,W为网络参数,b是网络偏置,x是网络输入即为F,σ(·)是激活函数,网络层和输出层连接一个softmax层。一种面向司法文本的搜索排序系统,包括:第一获取模块,用于获取司法文本数据Doc,并对所述司法文本数据进行分词处理,预训练词向量;第二获取模块,用于获取用户输入的法律咨询问题Query;相关性计算模块,用于计算司法文本数据Doc和所述法律咨询问题Query的匹配得分,构建所述司法文本数据Doc和所述法律咨询问题Query的匹配矩阵,依据所述匹配矩阵截取相关性文本,计算所述相关性文本中词和词共现的统计信息构建特征向量,输入神经网络模型计算匹配得分;排序模块,用于根据所述匹配得分从大到小进行排序,并向所述用本文档来自技高网
...

【技术保护点】
1.一种面向司法文本的搜索排序方法,其步骤如下:(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再根据分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:在Query和Doc的相似度匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。

【技术特征摘要】
1.一种面向司法文本的搜索排序方法,其步骤如下:(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再根据分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:在Query和Doc的相似度匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。2.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(1)中的分词处理包括:构建司法领域分词词典,并采用jieba分词对司法文本数据Doc进行分词处理。3.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(1)中的词向量的训练方法为word2vec训练方法。4.根据权利要求1至3任意一项所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(2)中相似度匹配矩阵M构建方法如公式(1);其中,q为Query中单词个数,d为Doc中单词个数,Qi为Query中第i个单词的词向量,Dj为Doc中第j个单词的词向量,mij∈[-1,1]是Qi和Dj的余弦相似度,值越大相似度越高。5.根据权利要求1至3任意一项所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(3)中局部相关性文本片段的提取方式如下:1)设定模板T,所述模板T的宽度为Query的单词个数,长度由Query的长度和具体应用场景决定,计算模板内Query和Doc的综合匹配向量:模板T在步骤(2)中匹配矩阵M中移动,按照公式(2)计算匹配向量S,其中,w为模板长度,k为下标,sk为Query和Doc中从单词Dk到单词Dk+w的文本片段的综合匹配得分;d为Doc的单词个数,max()为取最大值函数,M·k是匹配矩阵M中所有的行第k列,max(M·k)为求第k列的最大值即取最强特征避免其他干扰项,S为Query和Doc的匹配向量;2)根据匹配向量S截取局部相关性文本片段:在匹配向量S中选取n个长度为w的文本片段;首先计算向量S的均值S0=mean(S),计算S>S0时S所有的峰值及峰值对应的下标,取峰值对应的...

【专利技术属性】
技术研发人员:王开红陈涛张云云丁锴李建元
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1