一种基于融合特征的海事海商长文本分类方法、装置及介质制造方法及图纸

技术编号：33643627 阅读：13 留言：0更新日期：2022-06-02 20:19

本发明专利技术提供了一种基于融合特征的海事海商长文本分类方法、装置及介质，所述方法包括：首先对预处理的长文本进行分割，将划分好的小段文本分别送入BERT预训练模型，获取包含局部文本的词向量和句向量。其次，将词向量送入卷积神经网络生成局部文本的特征向量，融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量。然后，将长文划分后的n组文本融合的句向量输入到双向长短期记忆网提取文本的全局信息。最后，通过引入注意力机制关注重点，采用softmax得到长文本最终概率表达，提高模型分类效率和准确度。型分类效率和准确度。型分类效率和准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于融合特征的海事海商长文本分类方法、装置及介质

[0001]本专利技术涉及一种基于融合特征的海事海商长文本分类方法、装置及介质，属于自然语言处理

技术介绍

[0002]随着我国司法体系的不断深化改革，大量的裁判文书被各大法院通过互联网的形式进行公开，而文书类别标签的缺失导致法律相关人员面对海量的裁判文本信息资源检索困难。如何快速、高效地对裁决文书自动化分类是一个亟待解决的问题。
[0003]裁判文书分类属于文本分类范畴。文本分类作为自然语言处理领域(Natural Language Procesing, NLP)中最经典、最基本的任务之一，被广泛应用于主题分类、情感分析和问答匹配等领域。按照预先设定好的类别标签，通过提取文本的高级特征，给文本自动分类。文本分类大致可以分为两类方法：浅层学习的机器学习方法和基于深度学习的方法。浅层学习的文本分类方法通过提取词频或者词袋的特征，然后将文本特征送入朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine, SVM)等分类模型中预测类别标签。由于传统的机器学习算法是浅层的特征提取，存在高维的稀疏性、无序性和无法联系文本的上下文的劣势，限制了传统文本分类模型的分类效果。
[0004]Kim针对卷积神经网络(Convolutional Neural Networks, CNN)的输入层做了一些变形，提出了文本分类模型TextCNN。TextCNN模型包含一个卷积层和最大池化层，该模型参数量少、训练速度快，...

【技术保护点】

【技术特征摘要】
1.一种基于融合特征的海事海商长文本分类方法，其特征在于，包括以下步骤：获取待分类的海事海商长文本；对待分类的海事海商长文本进行分割，获得划分好的小段文本；将划分好的小段文本分别送入BERT预训练模型，获取局部文本的词向量和BERT句向量；将词向量送入卷积神经网络，生成局部文本的特征向量，融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量；将各局部文本的最终句向量输入到双向长短期记忆网络，提取文本的全局信息；通过引入注意力机制关注重点，采用softmax函数得到长文本最终概率表达，即海事海商长文本的分类结果。2.根据权利要求1所述的基于融合特征的海事海商长文本分类方法，其特征在于，对待分类的海事海商长文本进行分割，获得划分好的小段文本的方法包括：按照长文本的分层结构进行文本划分，将长文本划分为多个短句子，保留文本全局信息。3.根据权利要求1所述的基于融合特征的海事海商长文本分类方法，其特征在于，将划分好的小段文本分别送入BERT预训练模型，获取局部文本的词向量和BERT句向量的方法包括：对划分好的小段文本的两端加入BERT特殊的标记；对划分好的小段文本经过词嵌入、句子嵌入、位置嵌入三者的相加融合得到BERT编码器的输入信息；将BERT编码器的输入信息通过多个双向Transformer编码器编码后得到局部文本的词向量和BERT句向量。4.根据权利要求1所述的基于融合特征的海事海商长文本分类方法，其特征在于，所述卷积神经网络包括输入层、卷积层、池化层、融合层；所述输入层为局部文本的词向量组成的n
×
k矩阵，其中n为局部文本的词数量，k表示词向量的维度；所述输入层的每一行都是一个单词对应的k维词向量；所述卷积层通过运用多组不同大小的卷积核进行特征提取；所述池化层用于对卷积层的结果维度进行降维，采用最大池化对卷积层提取的特征池化成一个特征值；所述融合层用于对池化层得到的特征值进行拼接融合，构成局部文本的特征向量。5.根据权利要求1所述的基于融合特征的海事海商长文本分类方法，其特征在于，融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量的方法包括：将局部文本的特征向量和BERT句向量两个一维向量，通过向量首尾拼接重塑为一维的局部文本的最终句向量。6.根据权利要...

【专利技术属性】
技术研发人员：鲍闯，李鹏，冯姣，王文超，
申请(专利权)人：南京信息工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人