标讯章节文本分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:32832166 阅读:15 留言:0更新日期:2022-03-26 20:46
本发明专利技术涉及自然语言处理文本分类技术领域,提供一种标讯章节文本分类方法、装置、计算机设备和存储介质,所述方法包括:预处理原始标讯章节文本,得到训练标讯章节文本;对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量;基于线性规划约束条件,根据所述特征向量和词间马氏距离优化词变矩阵,构建马氏词变距离函数;根据所述马氏词变距离函数训练分类器,利用训练后的分类器预测待分类标讯章节文本的分类标签,确定所述待分类标讯章节文本的类别。采用本方法能够提高标讯章节文本分类的准确率。本分类的准确率。本分类的准确率。

【技术实现步骤摘要】
标讯章节文本分类方法、装置、计算机设备和存储介质


[0001]本专利技术属于自然语言处理文本分类
,尤其涉及一种标讯章节文本分类方法、装置、计算机设备和存储介质。

技术介绍

[0002]文本分类是按照预定意图或标准将自然语言文本语料分到给定类别的过程,标讯章节文本通常有两种结构形式,一种是包含结构信息和自然语言文本信息的半结构化文本,比如章节文本主要有章节结构段和章节正文结构段等两个结构段,标题主要由短语形态表述且内容凝练重要,正文多以叙述性完整句表述但内容繁杂。另一种则是仅具有一个字段如标题或正文的非结构化文本。
[0003]现有文本分类方法从技术发展角度可大致分为两类方法,基于传统机器学习的方法和基于现代机器学习的方法。其中,基于传统机器学习的方法包括基于传统支持向量机、决策树、随机森林、贝叶斯、朴素k近邻等,这类方法大体上首先经过特征工程过程对输入样本进行特征建模,人工构建样本的特征表示向量,然后利用传统机器学习分类器对人工构建的特征向量样本进行分类。而基于现代机器学习的方法主要是基于特征自学习的相关方法,其首先对输入样本进行特征自学习(有监督或者无监督),然后使用分类器对输入样本进行分类。绝大部分有监督特征学习方法是基于神经网络的,此时一般后接神经网络分类器形成基于神经网络的文本分类器。
[0004]然而,基于现代机器学习的方法其参数量巨大而往往要求巨多的标注数据,在小规模数据集上难以运用降低了分类效果。而基于人工特征工程的方法通常将不同的词视为无关的个体而缺乏词语语义理解,同时需要人为构建特征且通常采用欧式距离来衡量距离,但是分类器一般对构建的特征较敏感导致分类器的稳定性和泛化性有所下降,且欧氏距离对量纲敏感,在量纲不一致的多维特征上距离会有偏向而导致表现也有所下降,从而降低了分类的准确性。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种能够文本分类准确性的标讯章节文本分类方法、装置、计算机设备和存储介质。
[0006]本专利技术提供一种标讯章节文本分类方法,包括:
[0007]预处理原始标讯章节文本,得到训练标讯章节文本;
[0008]对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量;
[0009]基于线性规划约束条件,根据所述特征向量和词间马氏距离优化词变矩阵,构建马氏词变距离函数;
[0010]根据所述马氏词变距离函数训练分类器,利用训练后的分类器预测待分类标讯章节文本的分类标签,确定所述待分类标讯章节文本的类别。
[0011]在其中一个实施例中,所述特征向量包括词特征向量、词特征协方差矩阵和文本
向量;所述对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量,包括:
[0012]对所述训练标讯章节文本进行特征处理,得到词特征向量以及词特征协方差矩阵;
[0013]将所述训练标讯章节文本的内嵌结构展平为一级结构,得到数据格式为二元组的标讯章节文本;
[0014]计算所述标讯章节文本的半结构

词频矩阵和半结构

逆文档频率矩阵;
[0015]根据所述半结构

词频矩阵和所述半结构

逆文档频率矩阵确定半结构

词频

逆文档频率矩阵并拉成向量,得到文本向量。
[0016]在其中一个实施例中,所述计算所述标讯章节文本的半结构

词频矩阵和半结构

逆文档频率矩阵,包括:
[0017]以所述标讯章节文本中词的数量作为行数,结构段的数量作为列数,构建空值半结构

词频矩阵和空值半结构

逆文档频率矩阵;
[0018]基于所述词在所述结构段的文本中出现次数,分别计算各所述词在各所述结构段的文本中的词频,将所述词频作为矩阵元素写入所述空值半结构

词频矩阵中,得到半结构

词频矩阵;
[0019]基于词典的大小以及所述结构段的数量,分别计算各所述词在各所述结构段的文本中的逆文档频率,将所述逆文档频率作为矩阵元素写入所述空值半结构

逆文档频率矩阵中,得到半结构

逆文档频率矩阵。
[0020]在其中一个实施例中,所述根据所述半结构

词频矩阵和所述半结构

逆文档频率矩阵确定半结构

词频

逆文档频率矩阵并拉成向量,得到文本向量,包括:
[0021]根据所述半结构

词频矩阵和所述半结构

逆文档频率矩阵计算半结构

词频

逆文档频率矩阵并拉成一维向量,得到文本向量,计算公式如下:
[0022][0023]其中,x是半结构

词频

逆文档频率矩阵对应的文本向量,Q是半结构

词频矩阵,P是半结构

逆文档频率矩阵,W
Q
和W
P
是维度与Q、P相同的结构信息转移共享参数矩阵,

是逐元素乘积,1
|F|
是维度为|F|的所有元素全为1的向量,|F|是结构段的数量,||
·
||1为矩阵1

范数。
[0024]在其中一个实施例中,所述计算所述标讯章节文本的半结构

词频矩阵和半结构

逆文档频率矩阵之前,还包括:去除所述标讯章节文本中的实体词。
[0025]在其中一个实施例中,所述基于线性规划约束条件,根据所述特征向量和词间马氏距离优化得到词变矩阵,构建马氏词变距离函数,包括:
[0026]获取预设的线性规划约束条件;
[0027]在所述线性规划约束条件的约束下,利用所述特征向量和词间马氏距离优化得到词变矩阵,构建马氏词变距离函数,计算公式如下:
[0028][0029]其中,MWTD(x,y)是文本向量x与文本向量y的马氏词变距离,T是词变矩阵,矩阵元素T
ij
是文本向量x中第i个词到文本向量y中第j个词的词变权重,ω
i
为文本向量x的第i个词的词特征向量,ω
j
为文本向量y的第j个词的词特征向量,B为词特征协方差矩阵,是文本向量x中第i个词和文本向量y中第j个词的词间马氏距离。
[0030]在其中一个实施例中,所述线性规划约束条件包括:所述词变矩阵为非负矩阵,所述词变矩阵中第i行向量的向量元素之和等于文本向量x的第i个元素的值,所述词变矩阵的第j列向量的向量元素之和等于文本向量y的第j个元素的值。
[0031]一种标讯章节文本分类装置,包括:
[0032]预处理模块,用于预处理原始标讯章节文本,得到训练标讯章节文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标讯章节文本分类方法,其特征在于,包括:预处理原始标讯章节文本,得到训练标讯章节文本;对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量;基于线性规划约束条件,根据所述特征向量和词间马氏距离优化词变矩阵,构建马氏词变距离函数;根据所述马氏词变距离函数训练分类器,利用训练后的分类器预测待分类标讯章节文本的分类标签,确定所述待分类标讯章节文本的类别。2.根据权利要求1所述的方法,其特征在于,所述特征向量包括词特征向量、词特征协方差矩阵和文本向量;所述对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量,包括:对所述训练标讯章节文本进行特征处理,得到词特征向量以及词特征协方差矩阵;将所述训练标讯章节文本的内嵌结构展平为一级结构,得到数据格式为二元组的标讯章节文本;计算所述标讯章节文本的半结构

词频矩阵和半结构

逆文档频率矩阵;根据所述半结构

词频矩阵和所述半结构

逆文档频率矩阵确定半结构

词频

逆文档频率矩阵并拉成向量,得到文本向量。3.根据权利要求2所述的方法,其特征在于,所述计算所述标讯章节文本的半结构

词频矩阵和半结构

逆文档频率矩阵,包括:以所述标讯章节文本中词的数量作为行数,结构段的数量作为列数,构建空值半结构

词频矩阵和空值半结构

逆文档频率矩阵;基于所述词在所述结构段的文本中出现次数,分别计算各所述词在各所述结构段的文本中的词频,将所述词频作为矩阵元素写入所述空值半结构

词频矩阵中,得到半结构

词频矩阵;基于词典的大小以及所述结构段的数量,分别计算各所述词在各所述结构段的文本中的逆文档频率,将所述逆文档频率作为矩阵元素写入所述空值半结构

逆文档频率矩阵中,得到半结构

逆文档频率矩阵。4.根据权利要求2所述的方法,其特征在于,所述根据所述半结构

词频矩阵和所述半结构

逆文档频率矩阵确定半结构

词频

逆文档频率矩阵并拉成向量,得到文本向量,包括:根据所述半结构

词频矩阵和所述半结构

逆文档频率矩阵计算半结构

词频

逆文档频率矩阵并拉成一维向量,得到文本向量,计算公式如下:其中,x是半结构

词频

...

【专利技术属性】
技术研发人员:段炼周忠诚彭文凯黄九鸣张圣栋
申请(专利权)人:厦门星汉数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1