一种基于注意力机制的司法场景用文案输入识别分类方法技术

技术编号：23672511 阅读：33 留言：0更新日期：2020-04-04 17:57

本发明专利技术公布了文案输入识别分类技术领域的一种基于注意力机制的司法场景用文案输入识别分类方法，具体步骤为：首先获取文本数据集，并对其构建语义扩展矩阵，对预处理后的文本进行特征选择，组成文本数据集的特征空间，将嵌入式矩阵中的数据导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中，将不同维度的数据进行拼接融合，处理后的数据导入Softmax分类器进行归一化处理，使用全局长期依赖关注局部语义特征，可以去除冗余或者不相关特征，提高文本分类效率，将提取的特征进行融合，能够丰富、细致地提取文本语料中的深度语义特征，提高了模型对司法短文本特征的识别能力，提高对司法文案文本的识别分类效率。

A method of text input recognition and classification for judicial scenes based on attention mechanism

全部详细技术资料下载

【技术实现步骤摘要】
一种基于注意力机制的司法场景用文案输入识别分类方法
本专利技术涉及文案输入识别分类
，具体为一种基于注意力机制的司法场景用文案输入识别分类方法。
技术介绍
搜索引擎技术是近些年来互联网发展中出现的一项新技术，其应用的目的是帮助互联网用户在浩如烟海的信息中快速地找到并显示其所需信息，法律搜索引擎可以帮助用户在海量司法库中快速地找到并显示其所需信息，司法文本类型细分种类繁多，说白了，搜索引擎就是一种分类手段，文本分类技术可以识别出用户想要查询的司法文本类型，再通过搜索引擎中的倒排索引等排序技术返回用户想要的结果，在此过程中，用户输入文本存在模糊性、多意图性和不规范性等特点，所以输入文本不规范、用户输入不规范等输入方式多样化使文本中出现不规则特征词和分词词典无法识别的未登录词，传统的文本分类理解不了用户查询意图的主次，增加了分类的难度，并且在一定程度上导致无法准确的获取短文本的特征表示，分类的效率不高，因此，我们提出一种基于注意力机制的司法场景用文案输入识别分类方法。
技术实现思路
本专利技术的目的在于提供一种基于注意力机制的司法场景用文案输入识别分类方法，以解决上述
技术介绍
中提出的问题。为实现上述目的，本专利技术提供如下技术方案：一种基于注意力机制的司法场景用文案输入识别分类方法，其具体步骤为：A：获取文本数据集，对收集得到的司法文本数据进行数据预处理，将每一个词进行向量化并表示并组成映射矩阵，然后利用利用映射矩阵和权值为1的核矩阵进行一维卷积运算，检测出短文本中潜在的多尺度候选...

【技术保护点】
1.一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：其具体步骤为：/nA：获取文本数据集，对收集得到的司法文本数据进行数据预处理，将每一个词进行向量化并表示并组成映射矩阵，然后利用利用映射矩阵和权值为1的核矩阵进行一维卷积运算，检测出短文本中潜在的多尺度候选语义单元；/nB：构建语义扩展矩阵，作为短文本的扩展信息，同时获取短文本中文本序列的语义特征，将短文本的语义特征向量赋予分类器，对短文本的类别进行预测；/nC：对预处理后的文本进行特征选择，组成文本数据集的特征空间，对特征空间中的数据进行整理构建得到词汇表，并进行数据向量化形成嵌入式矩阵，并利用自身注意力机制进行自我学习，得到自我关注向量；/nD：将嵌入式矩阵中的数据导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中，将不同维度的数据进行拼接融合；/nE：集成融合后的数据导入到全连接层中进行处理，处理后的数据导入Softmax分类器进行归一化处理，输出样本属于各个类别的概率，以最大值对应的类别，作为文本类别识别的结果，即可通过文本分类模型实现司法文本的快速分类。/n

【技术特征摘要】
1.一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：其具体步骤为：
A：获取文本数据集，对收集得到的司法文本数据进行数据预处理，将每一个词进行向量化并表示并组成映射矩阵，然后利用利用映射矩阵和权值为1的核矩阵进行一维卷积运算，检测出短文本中潜在的多尺度候选语义单元；
B：构建语义扩展矩阵，作为短文本的扩展信息，同时获取短文本中文本序列的语义特征，将短文本的语义特征向量赋予分类器，对短文本的类别进行预测；
C：对预处理后的文本进行特征选择，组成文本数据集的特征空间，对特征空间中的数据进行整理构建得到词汇表，并进行数据向量化形成嵌入式矩阵，并利用自身注意力机制进行自我学习，得到自我关注向量；
D：将嵌入式矩阵中的数据导入注意力机制模块的注意力机制权重模型、双层LSTM神经网络层和CNN模块中，将不同维度的数据进行拼接融合；
E：集成融合后的数据导入到全连接层中进行处理，处理后的数据导入Softmax分类器进行归一化处理，输出样本属于各个类别的概率，以最大值对应的类别，作为文本类别识别的结果，即可通过文本分类模型实现司法文本的快速分类。

2.根据权利要求1所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在于：步骤B中使用双向长短期记忆网络来捕获文本序列的全局长期依赖，同时，使用多尺度卷积神经网络提取文本序列的局部语义特征。

3.根据权利要求1所述的一种基于注意力机制的司法场景用文案输入识别分类方法，其特征在...

【专利技术属性】
技术研发人员：袁馨，谢文锐，
申请(专利权)人：北明软件有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人