【技术实现步骤摘要】
一种面向司法文本的搜索排序方法及系统
本专利技术属于自然语言处理领域,涉及一种面向司法文本的搜索排序方法及系统。
技术介绍
搜索排序算法的核心是如何计算搜索输入(Query)和目标文档(Doc)之间的关系并依此对Doc进行排序。专利CN201710263575.6是通过预设排序规则将检索到的文档进行排序,预设规则需要花费大量的时间来分析规则模板的可行性,并且用户的输入和意图具有高度不确定性很难穷尽所有的排序规则,排序结果具有一定的不可预测性。专利CN201710348412.8提取关键词并制作同义词词典扩大检索结果,再用预设排序规则进行排序。专利CN201710298924.8是提取Query和Doc的主题,并计算主题之间的相似度作为排序标准。目前常用的搜索排序方法可分为基于Query和Doc之间相似性和相关性的两种方法。专利CN201811117761.X通过自注意机制计算句子和段落之间的向量表示,然后计算向量之间的相似性作为排序标准,专利CN201580019941.2采用深度学习网络计算具有上下文特征的Query和Doc的语义向量,通过语义向量的相似性来进行排序。涉及文本相关性排序的专利不多,论文2983323.2983769(DOI)提出DRMM算法,将Query和完整Doc之间单词的匹配直方图作为神经网络输入计算全局匹配结果来进行排序,但是短Query和长Doc之间不可避免的会出现不匹配单词远远多于匹配单词,造成直方图分布严重不均衡从而影响排序结果,并且基于全局匹配结果忽略了局部匹配结果的重要性。论文3132847.3132914(DOI)介绍了 ...
【技术保护点】
1.一种面向司法文本的搜索排序方法,其步骤如下:(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再根据分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:在Query和Doc的相似度匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。
【技术特征摘要】
1.一种面向司法文本的搜索排序方法,其步骤如下:(1)数据预处理:收集司法文本数据Doc和法律咨询问题Query,并将收集的司法文本数据Doc进行分词处理,再根据分词后的数据预训练司法文本词向量;(2)构建相似度矩阵:采用预训练的司法文本词向量构建Query和Doc的相似度匹配矩阵M;(3)截取相关性文本片段:在Query和Doc的相似度匹配矩阵M提取局部相关性文本片段,多个局部相关性文本片段拼接在一起获得相关性文本Ds,对应的多个局部相关性文本片段的匹配矩阵拼接在一起获得矩阵Ms;(4)构建特征向量:计算Query和相关性文本Ds的全局相关性,构建特征向量F;(5)计算匹配值并排序:将获得的特征向量F输入到神经网络模型中,得到最终的Query和Doc的匹配score,然后根据匹配score大小进行排序。2.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(1)中的分词处理包括:构建司法领域分词词典,并采用jieba分词对司法文本数据Doc进行分词处理。3.根据权利要求1所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(1)中的词向量的训练方法为word2vec训练方法。4.根据权利要求1至3任意一项所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(2)中相似度匹配矩阵M构建方法如公式(1);其中,q为Query中单词个数,d为Doc中单词个数,Qi为Query中第i个单词的词向量,Dj为Doc中第j个单词的词向量,mij∈[-1,1]是Qi和Dj的余弦相似度,值越大相似度越高。5.根据权利要求1至3任意一项所述的一种面向司法文本的搜索排序方法,其特征在于:步骤(3)中局部相关性文本片段的提取方式如下:1)设定模板T,所述模板T的宽度为Query的单词个数,长度由Query的长度和具体应用场景决定,计算模板内Query和Doc的综合匹配向量:模板T在步骤(2)中匹配矩阵M中移动,按照公式(2)计算匹配向量S,其中,w为模板长度,k为下标,sk为Query和Doc中从单词Dk到单词Dk+w的文本片段的综合匹配得分;d为Doc的单词个数,max()为取最大值函数,M·k是匹配矩阵M中所有的行第k列,max(M·k)为求第k列的最大值即取最强特征避免其他干扰项,S为Query和Doc的匹配向量;2)根据匹配向量S截取局部相关性文本片段:在匹配向量S中选取n个长度为w的文本片段;首先计算向量S的均值S0=mean(S),计算S>S0时S所有的峰值及峰值对应的下标,取峰值对应的...
【专利技术属性】
技术研发人员:王开红,陈涛,张云云,丁锴,李建元,
申请(专利权)人:银江股份有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。