一种大数据案例匹配模型的设计方法及装置制造方法及图纸

技术编号:32431103 阅读:13 留言:0更新日期:2022-02-24 18:44
本发明专利技术公开了一种大数据案例匹配模型的设计方法及装置,该方法包括:步骤1,提取新的案件L的特征词,根据特征词出现频率计算案件L与其每个特征词的关联度,计算每个特征词与每个案件类别C的关联度,进而得到案件L与每个案件类别C的关联度;步骤2,计算历史案例案件l与其类别的关联度,从而得到案件L与历史案例案件l的特征词关联度,步骤3,根据特征词之间上下文整体信息计算文本的关联度;步骤4,根据特征词关联度和文本关联度计算案件L与历史案例案件l的综合关联度,从而匹配出具有高度关联度的历史案例,从案件处理工作人员和申请人两个角度减轻案件处理负担,提高案件处理效率,提升公众案件处理服务满意度。提升公众案件处理服务满意度。

【技术实现步骤摘要】
一种大数据案例匹配模型的设计方法及装置


[0001]本专利技术涉及自然语言处理和智能案件处理技术研究领域,具体涉及一种大数据案例匹配模型的设计方法及装置。

技术介绍

[0002]案件处理旨在帮助群众解决问题,然而由于中国人口基数大,社会问题复杂,使得案件总量多、涉及到的领域多,相关部门工作量大、群众需求难以解决。
[0003]在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:我国目前的案件处理部门工作主要依赖人工处理,严重依赖工作人员的知识储备和专业水平,工作人员缺乏有效的准确、高效的历史案例匹配辅助工具,通过普通搜索引擎难以快速查找到相关度高的案例参考。不但案件处理工作人员缺乏相关案例参考,申请人在申请之前也无法提前通过一些历史案例自主寻找合理解决方案。

技术实现思路

[0004]为了克服现有技术的不足,本公开实施例提供了一种大数据案例匹配模型的设计方法及装置,基于自然语言处理的文本相似度可以提供具有高度关联度的历史案例,从案件处理工作人员和申请人两个角度减轻案件处理负担,提高案件处理效率,提升公众案件处理服务满意度。技术方案如下:
[0005]第一方面,提供了一种大数据案例匹配模型的设计方法,所述方法包括:
[0006]步骤1,提取新的案件L的特征词,形成特征词集合,
[0007]对于一个新的案件L,提取案件L的文本中的固有特征词X{x1, x2,

},并生成固有特征词的同义词和/或近义词Y{y1,y2,

},固有特征词与其同义词和/或近义词一起构成特征词集合Z{x1,x2,

y1,y2,

};
[0008]根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),计算每个特征词a与每个案件类别C的关联度cor(C,a),进而得到案件L与每个案件类别C的关联度:
[0009]cor(C,L)=∑cor(C,a)*cor(L,a),a∈Z
[0010]取关联度最高的n个案件类别为案件L的可能所属类别;
[0011]步骤2,按照步骤1的方法,计算关联度最高的n个案件类别中的每个历史案例案件l与其类别C
j
的关联度cor(C
j
,l)
[0012]从而得到案件L与类别C
j
中每个历史案例案件l的特征词关联度:
[0013]cor(L,l)=cor(C
j
,L)*cor(C
j
,l),l是C
j
中的历史案例案件;
[0014]步骤3,计算案件文本关联度根据新的案件L文本与关联度最高的n个案件类别中历史案例案件l文本的特征词,对于每个特征词,进行向量化的表示;通过词向量编码方法将特征词表示为k个维度的词向量,特征词的词向量表示v
i
=(v
i1
,v
i2
,

v
iK
),k为整数且k≤100;根据特征词词义和特征词之间上下文关系所形成的文本整体信息得到文本的关联度;
[0015]步骤4,根据特征词关联度cor(L,l)和文本关联度计算案件L与历史案例案件l的综合关联度C(L,l),并根据综合关联度大小进行排序,展示匹配结果。
[0016]优选的,步骤1所述根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),具体为:
[0017]对于固有特征词X中的每个特征词a,统计特征词a在案件L的文本中出现的次数M以及案件L文本的词的总数N,得到特征词a出现的频率pa=M/N;
[0018]特征词a与案件L的关联度为:
[0019][0020]其中pi是第i个固有特征词出现的频率,从而得到了案件与其特征词的关联度。
[0021]优选的,步骤1所述计算每个特征词a与每个案件类别C的关联度 cor(C,a),具体为:
[0022]根据历史案例库,案件L的特征词a与案件类别C的关联度为:
[0023][0024]其中CM是案件类别C的案件案例中包含特征词a的案件案例数量,CN是案件类别C中所有案件案例的数量。
[0025]优选的,步骤2所述按照步骤1的方法,计算关联度最高的n个案件类别中的历史案例案件l与其类别C
j
的关联度cor(C
j
,l),具体为:针对关联度最高的 n个案件类别中每个案件类别C
j
,获取案件类别C
j
中的每个历史案例案件l,获取历史案例案件l的特征词,计算历史案例案件l与其每个特征词d的关联度 cor(l,d),计算每个特征词d与其案件类别C
j
的关联度cor(C
j
,d),从而得到历史案例案件l其类别C
j
的关联度cor(C
j
,l)=∑cor(C
j
,d)*cor(l,d),进而得到关联度最高的n个案件类别中的每个历史案例l与其类别C
j
的关联度。
[0026]优选的,所述词向量编码方法采用word2vec模型的编码方法。
[0027]优选的,步骤3所述计算案件文本关联度,具体为:将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度和/或:通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度进而得到案件L和案件l的文本关联度:
[0028][0029]进一步的,所述将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度;具体方法为:
[0030]对于案件L,将其每个特征词的词向量v
i
=(v
i1
,v
i2
,

v
iK
)映射到K维向量空间中的特征词节点Node
i
,根据每个特征词在案件L文本出现的顺序,依次连接K维空间的特征词
节点形成文本“信息传达路径”InfoRoute
L

[0031]同样的方法,对于历史案例案件l,将其每个特征词的词向量v
j
= (v
j1
,v
j2
,

v
jK
)映射到K维向量空间中的特征词节点Node
j
,根据每个特征词在案件l文本出现的顺序,依次连接K维空间的特征词节点形成文本“信息传达路径”InfoRoute
l

[0032]根据案件L的“信息传达路径”InfoRoute
L
和历史案例案件l的“信息传达路径”InfoRoute
l
,在K维本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种大数据案例匹配模型的设计方法,其特征在于,该方法包括如下步骤:步骤1,提取新的案件L的特征词,形成特征词集合,对于一个新的案件L,提取案件L的文本中的固有特征词X{x1,x2,

},并生成固有特征词的同义词和/或近义词Y{y1,y2,

},固有特征词与其同义词和/或近义词一起构成特征词集合Z{x1,x2,

y1,y2,

};根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),计算每个特征词a与每个案件类别C的关联度cor(C,a),进而得到案件L与每个案件类别C的关联度:cor(C,L)=∑cor(C,a)*cor(L,a),a∈Z取关联度最高的n个案件类别为案件L的可能所属类别;步骤2,按照步骤1的方法,计算关联度最高的n个案件类别中的每个历史案例案件l与其类别C
j
的关联度cor(C
j
,l)从而得到案件L与类别C
j
中每个历史案例案件l的特征词关联度:cor(L,l)=cor(C
j
,L)*cor(C
j
,l),l是C
j
中的历史案例案件;步骤3,计算案件文本关联度根据新的案件L文本与关联度最高的n个案件类别中历史案例案件l文本的特征词,对于每个特征词,进行向量化的表示;通过词向量编码方法将特征词表示为K个维度的词向量,特征词的词向量表示v
i
=(v
i1
,v
i2
,

v
iK
),K为整数且K≤100;根据特征词词义和特征词之间上下文关系所形成的文本整体信息得到文本的关联度;步骤4,根据特征词关联度cor(L,l)和文本关联度计算案件L与历史案例案件l的综合关联度C(L,l),并根据综合关联度大小进行排序,展示匹配结果。2.根据权利要求1所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤1所述根据特征词a出现频率计算案件L与其每个特征词的关联度cor(L,a),具体为:对于固有特征词X中的每个特征词a,统计特征词a在案件L的文本中出现的次数M以及案件L文本的词的总数N,得到特征词a出现的频率pa=M/N;特征词a与案件L的关联度为:其中pi是第i个固有特征词出现的频率,从而得到了案件与其特征词的关联度。3.根据权利要求1所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤1所述计算每个特征词a与每个案件类别C的关联度cor(C,a),具体为:根据历史案例库,案件L的特征词a与案件类别C的关联度为:其中CM是案件类别C的案件案例中包含特征词a的案件案例数量,CN是案件类别C中所
有案件案例的数量。4.根据权利要求1所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤2所述按照步骤1的方法,计算关联度最高的n个案件类别中的历史案例案件l与其类别C
j
的关联度cor(C
j
,l),具体为:针对关联度最高的n个案件类别中每个案件类别C
j
,获取案件类别C
j
中的每个历史案例案件l,获取历史案例案件l的特征词,计算历史案例案件l与其每个特征词d的关联度cor(l,d),计算每个特征词d与其案件类别C
j
的关联度cor(C
j
,d),从而得到历史案例案件l其类别C
j
的关联度cor(C
j
,l)=∑cor(C
j
,d)*cor(l,d),进而得到关联度最高的n个案件类别中的每个历史案例l与其类别C
j
的关联度。5.根据权利要求1-4任一项所述的一种大数据案例匹配模型的设计方法,其特征在于,所述词向量编码方法采用word2vec模型的编码方法。6.根据权利要求1-4任一项所述的一种大数据案例匹配模型的设计方法,其特征在于,步骤3所述计算案件文本关联度,具体为:将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度和/或:通过文本向量化表示letter embedding,将向量点积运算后得到文本关联度进而得到案件L和案件l的文本关联度:7.根据权利要求6所述的一种大数据案例匹配模型的设计方法,其特征在于,所述将案件文本中特征词和特征词之间的信息传递映射到高维空间的“信息传达路径”,通过计算两文本“信息传达路径”之间的相似度得到文本关联度;具体方法为:对于案件L,将其每个特征词的词向量v
...

【专利技术属性】
技术研发人员:陈贵龙周金明熊林海
申请(专利权)人:权利要求书三页说明书八页
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1