一种基于融合特征的海事海商长文本分类方法、装置及介质制造方法及图纸

技术编号:33643627 阅读:13 留言:0更新日期:2022-06-02 20:19
本发明专利技术提供了一种基于融合特征的海事海商长文本分类方法、装置及介质,所述方法包括:首先对预处理的长文本进行分割,将划分好的小段文本分别送入BERT预训练模型,获取包含局部文本的词向量和句向量。其次,将词向量送入卷积神经网络生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量。然后,将长文划分后的n组文本融合的句向量输入到双向长短期记忆网提取文本的全局信息。最后,通过引入注意力机制关注重点,采用softmax得到长文本最终概率表达,提高模型分类效率和准确度。型分类效率和准确度。型分类效率和准确度。

【技术实现步骤摘要】
一种基于融合特征的海事海商长文本分类方法、装置及介质


[0001]本专利技术涉及一种基于融合特征的海事海商长文本分类方法、装置及介质,属于自然语言处理


技术介绍

[0002]随着我国司法体系的不断深化改革,大量的裁判文书被各大法院通过互联网的形式进行公开,而文书类别标签的缺失导致法律相关人员面对海量的裁判文本信息资源检索困难。如何快速、高效地对裁决文书自动化分类是一个亟待解决的问题。
[0003]裁判文书分类属于文本分类范畴。文本分类作为自然语言处理领域(Natural Language Procesing, NLP)中最经典、最基本的任务之一,被广泛应用于主题分类、情感分析和问答匹配等领域。按照预先设定好的类别标签,通过提取文本的高级特征,给文本自动分类。文本分类大致可以分为两类方法:浅层学习的机器学习方法和基于深度学习的方法。浅层学习的文本分类方法通过提取词频或者词袋的特征,然后将文本特征送入朴素贝叶斯(Naive Bayes,NB)、支持向量机(Support Vector Machine, SVM)等分类模型中预测类别标签。由于传统的机器学习算法是浅层的特征提取,存在高维的稀疏性、无序性和无法联系文本的上下文的劣势,限制了传统文本分类模型的分类效果。
[0004]Kim针对卷积神经网络(Convolutional Neural Networks, CNN)的输入层做了一些变形,提出了文本分类模型TextCNN。TextCNN模型包含一个卷积层和最大池化层,该模型参数量少、训练速度快,但其卷积核的视野受卷积核控制,固定大小的卷积核只能提取局部的特征,无法关注更长视野的特征。Liu等人使用长短期记忆网络(Long Short

Term Memory, LSTM)对语句的序列信息进行建模,并将网络的最后一个状态作为文本表示。对于短文本来说,循环神经网络具有较好的表现。随着文本的长度变长,序列数据之间的间隔就会加大,这会使得长短期记忆网络的记忆性减弱。对于长文本来说,直接将文档作为长序列输入模型,不仅会给模型的性能带来挑战,而且会忽略掉文档的层次结构信息。

技术实现思路

[0005]本专利技术的目的在于克服现有技术中的不足,提供一种基于融合特征的海事海商长文本分类方法、装置及介质,可较准确的对海事海商长文本进行分类。
[0006]为达到上述目的,本专利技术是采用下述技术方案实现的:第一方面,本专利技术提供了一种基于融合特征的海事海商长文本分类方法,包括以下步骤:获取待分类的海事海商长文本;对待分类的海事海商长文本进行分割,获得划分好的小段文本;将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量;将词向量送入卷积神经网络,生成局部文本的特征向量,融合局部文本的特征向
量和BERT句向量作为局部文本的最终句向量;将各局部文本的最终句向量输入到双向长短期记忆网络,提取文本的全局信息;通过引入注意力机制关注重点,采用softmax函数得到长文本最终概率表达,即海事海商长文本的分类结果。
[0007]进一步的,对待分类的海事海商长文本进行分割,获得划分好的小段文本的方法包括:按照长文本的分层结构进行文本划分,将长文本划分为多个短句子,保留文本全局信息。
[0008]进一步的,将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量的方法包括:对划分好的小段文本的两端加入BERT特殊的标记;对划分好的小段文本经过词嵌入、句子嵌入、位置嵌入三者的相加融合得到BERT编码器的输入信息;将BERT编码器的输入信息通过多个双向Transformer编码器编码后得到局部文本的词向量和BERT句向量。
[0009]进一步的,所述卷积神经网络包括输入层、卷积层、池化层、融合层;所述输入层为局部文本的词向量组成的n
×
k矩阵,其中n为局部文本的词数量,k表示词向量的维度;所述输入层的每一行都是一个单词对应的k维词向量;所述卷积层通过运用多组不同大小的卷积核进行特征提取;所述池化层用于对卷积层的结果维度进行降维,采用最大池化对卷积层提取的特征池化成一个特征值;所述融合层用于对池化层得到的特征值进行拼接融合,构成局部文本的特征向量。
[0010]进一步的,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量的方法包括:将局部文本的特征向量和BERT句向量两个一维向量,通过向量首尾拼接重塑为一维的局部文本的最终句向量。
[0011]进一步的,所述双向长短期记忆网络,提取文本的全局信息由三个门控制细胞状态,分别为遗忘门、输入门、输出门;所述双向长短期记忆网络按照时间顺序接收局部文本的最终句向量,将多组局部文本的最终句向量分别对应输入到双向长短期记忆网络的多个隐层中;双向长短期网络关联整组文本的多组局部信息,提取文本的全局信息;所述遗忘门用于决定上一时刻的单元状态有多少保留到当前时刻;所述输入门用于决定当前时刻网络的输入有多少保存到单元状态;所述输出门用于控制单元状态有多少输出到长短期记忆网络的当前输出值。
[0012]进一步的,通过引入注意力机制关注重点,采用softmax函数得到长文本最终概率表达的方法包括:对每一时刻的双向长短期记忆网络的隐层输出进行注意力权重的计算和权重的
归一化,权重值越大表明该局部信息对分类的准确率影响越大;对各个时刻的输出特征进行加权求和,得到最终的文本向量;通过softmax函数计算其概率最大值的类别作为海事海商长文本的分类结果。
[0013]第二方面,本专利技术提供了一种基于融合特征的海事海商长文本分类装置,包括:获取模块:用于获取待分类的海事海商长文本;分割模块:用于对待分类的海事海商长文本进行分割,获得划分好的小段文本;词嵌入层模块:用于将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量;CNN层模块:用于将词向量送入卷积神经网络,生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量;Bi

LSTM层模块:用于将各局部文本的最终句向量输入到双向长短期记忆网络,提取文本的全局信息;注意力层模块:用于通过引入注意力机制关注重点,采用softmax函数得到长文本最终概率表达,即海事海商长文本的分类结果。
[0014]第三方面,本专利技术提供一种基于融合特征的海事海商长文本分类装置,包括处理器及存储介质;所述存储介质用于存储指令;所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
[0015]第四方面,本专利技术提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现第一方面所述方法的步骤。
[0016]与现有技术相比,本专利技术所达到的有益效果:1、本专利技术专利采用对海事海商长文本进行分割,获得划分好的小段文本方法时,实现了将文本表示阶段的复杂度达到降低。
[0017]2、本专利技术采用最先进的预训练语言本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合特征的海事海商长文本分类方法,其特征在于,包括以下步骤:获取待分类的海事海商长文本;对待分类的海事海商长文本进行分割,获得划分好的小段文本;将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量;将词向量送入卷积神经网络,生成局部文本的特征向量,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量;将各局部文本的最终句向量输入到双向长短期记忆网络,提取文本的全局信息;通过引入注意力机制关注重点,采用softmax函数得到长文本最终概率表达,即海事海商长文本的分类结果。2.根据权利要求1所述的基于融合特征的海事海商长文本分类方法,其特征在于,对待分类的海事海商长文本进行分割,获得划分好的小段文本的方法包括:按照长文本的分层结构进行文本划分,将长文本划分为多个短句子,保留文本全局信息。3.根据权利要求1所述的基于融合特征的海事海商长文本分类方法,其特征在于,将划分好的小段文本分别送入BERT预训练模型,获取局部文本的词向量和BERT句向量的方法包括:对划分好的小段文本的两端加入BERT特殊的标记;对划分好的小段文本经过词嵌入、句子嵌入、位置嵌入三者的相加融合得到BERT编码器的输入信息;将BERT编码器的输入信息通过多个双向Transformer编码器编码后得到局部文本的词向量和BERT句向量。4.根据权利要求1所述的基于融合特征的海事海商长文本分类方法,其特征在于,所述卷积神经网络包括输入层、卷积层、池化层、融合层;所述输入层为局部文本的词向量组成的n
×
k矩阵,其中n为局部文本的词数量,k表示词向量的维度;所述输入层的每一行都是一个单词对应的k维词向量;所述卷积层通过运用多组不同大小的卷积核进行特征提取;所述池化层用于对卷积层的结果维度进行降维,采用最大池化对卷积层提取的特征池化成一个特征值;所述融合层用于对池化层得到的特征值进行拼接融合,构成局部文本的特征向量。5.根据权利要求1所述的基于融合特征的海事海商长文本分类方法,其特征在于,融合局部文本的特征向量和BERT句向量作为局部文本的最终句向量的方法包括:将局部文本的特征向量和BERT句向量两个一维向量,通过向量首尾拼接重塑为一维的局部文本的最终句向量。6.根据权利要...

【专利技术属性】
技术研发人员:鲍闯李鹏冯姣王文超
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1