当前位置: 首页 > 专利查询>燕山大学专利>正文

一种法律场景智能分类系统和方法技术方案

技术编号:28373914 阅读:62 留言:0更新日期:2021-05-08 00:01
本发明专利技术公开了一种法律场景智能分类系统和方法,其中包括分类、自学习和自适应三个模块。首先将待分类样本输入到融合混合注意力原型网络和词向量相似度两种方法的分类模块中,预测其所属类别;同时本发明专利技术设计了一个自学习模块,该模块可以通过对预测结果设置置信度,将高置信度预测样本加入训练集,从而扩充预料库,改善模型性能;此外,模型还具有自适应能力,可以自动适应类别的增加、减少或修改等变化。应用本发明专利技术技术方法,与传统深度学习相比可以在只有少量初始训练样本的情况下实现高效的法律场景分类。

【技术实现步骤摘要】
一种法律场景智能分类系统和方法
本专利技术涉及法律自然语言处理
,特别涉及一种基于混合注意力原型网络和词向量相似度相融合的法律场景智能分类系统和方法。
技术介绍
现有基于深度学习的文本分类模型有很多,且均取得了很好的分类效果,但是在样本稀缺的领域中,这些模型很难发挥作用。尤其是在法律领域智能问答系统中,对法律场景进行准确分类是实现智能问答的必要前提,但是用户咨询问题往往口语化严重,且标注成本较高,传统的监督学习方法效果不佳。针对这一问题,我们设计了一种基于混合注意力的原型网络分类与词向量相似度相融合的方法,解决了稀疏标注下法律场景分类困难的问题。并且模型具备自学习和自适应能力,其中,自学习表现为可以通过自动扩充语料库来提升模型性能;自适应表现为在不重新训练模型的前提下,自动适应类别的增加、减少或修改等情况。
技术实现思路
本专利技术针对现有技术的缺陷,提供了一种法律场景智能分类系统和方法,解决了现有技术中存在的缺陷。为了实现以上专利技术目的,本专利技术采取的技术方案如下:一种法律场景智能分类系统,包括:本文档来自技高网...

【技术保护点】
1.一种法律场景智能分类系统,其特征在于,包括:分类模块、自学习模块和自适应模块;/n分类模块包括基于混合注意力的原型网络模块和词向量相似度模块,用于用户咨询问题分类。其中,基于混合注意力的原型网络模块用于计算用户咨询问题与各个类原型之间的距离,从而判断其所属的类别;词向量相似度模块是通过计算用户咨询问题的词向量与各类标签词向量之间的相似度来判断其所属类别,从而辅助混合注意力原型网络,提升分类效果;/n自学习模块:用于自动扩充训练集中语料不足的类别数据,从而提升系统在分类预测上的准确性;/n自适应模块:当增加、减少或修改待分类的类别时,可以自动适应类别的变化。/n

【技术特征摘要】
1.一种法律场景智能分类系统,其特征在于,包括:分类模块、自学习模块和自适应模块;
分类模块包括基于混合注意力的原型网络模块和词向量相似度模块,用于用户咨询问题分类。其中,基于混合注意力的原型网络模块用于计算用户咨询问题与各个类原型之间的距离,从而判断其所属的类别;词向量相似度模块是通过计算用户咨询问题的词向量与各类标签词向量之间的相似度来判断其所属类别,从而辅助混合注意力原型网络,提升分类效果;
自学习模块:用于自动扩充训练集中语料不足的类别数据,从而提升系统在分类预测上的准确性;
自适应模块:当增加、减少或修改待分类的类别时,可以自动适应类别的变化。


2.根据权利要求1所述的一种法律场景智能分类系统的分类方法,其特征在于,包括以下步骤:
步骤1,首先将用户咨询问题输入到基于混合注意力的原型网络方法中得到各个类上的得分向量P1,然后将用户咨询问题输入到词向量相似度方法中得到各个类上的得分向量P2,通过注意力机制对P1和P2加权求和得到最终的得分向量P,从而输出得分最高的类别。其中,得分向量P=αP1+βP2,α,β为注意力系数。
步骤2,首先判断模型预测得到最终类别的训练数据是否充足,当数据不足时,计算样本预测结果的置信度,若置信度超过系统设置的阈值,则将该样本保存到临时语料库中,当临时语料库的数据量达到200条后,将其扩充到训练集中重新训练模型,从而提高模型准确率;
步骤3,当待分类类别发生增加、减少或修改时,需要微调模型,并利用测试集中的数据对模型进行测试,如果在测试集上的准确率低于系统设置的阈值,则触发模型重新训练。另外,在增加类别时,对应各类的样本量不得低于20条。


3.根据权利要求2所述的分类方法,其特征在于:基于混合注意力的原型网络方法的工作步骤如下:
(1)方法采用小样本学习的N-wayK-shot方式进行训练,对于输入该模块的训练集数据,首先抽取N个类别,每个类别包含K个样本构成支持集S,并从这N个类别的剩余样本中每个类抽取Q个样本构成查询集。然后将支持集中的样本输入到编码层,将自然语言文本转化为计算机能够识别的向量形式E,同时,将查询集样本q输入编码层将其转化为特征向量xq。其中,支持集表示第i类的第j个样本,wt表示样本中的第t个词,n表示样本最大长度,表示第i类的第j个样本的特征向量;
(2)由于特征向量在不同维度上的特征对其所属类别的贡献度不同,因此,对于输入特征级注意力模块支持集中的各类样本,抽取各类样本在每个维度上的特征,得到更能表示其类别特点的特征向量Z=(z1,z2,…zN);其中zi表示第i类在特征维...

【专利技术属性】
技术研发人员:冯建周崔金满魏启凯王子易
申请(专利权)人:燕山大学
类型:发明
国别省市:河北;13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1