【技术实现步骤摘要】
标讯章节文本分类方法、装置、计算机设备和存储介质
[0001]本专利技术属于自然语言处理文本分类
,尤其涉及一种标讯章节文本分类方法、装置、计算机设备和存储介质。
技术介绍
[0002]文本分类是按照预定意图或标准将自然语言文本语料分到给定类别的过程,标讯章节文本通常有两种结构形式,一种是包含结构信息和自然语言文本信息的半结构化文本,比如章节文本主要有章节结构段和章节正文结构段等两个结构段,标题主要由短语形态表述且内容凝练重要,正文多以叙述性完整句表述但内容繁杂。另一种则是仅具有一个字段如标题或正文的非结构化文本。
[0003]现有文本分类方法从技术发展角度可大致分为两类方法,基于传统机器学习的方法和基于现代机器学习的方法。其中,基于传统机器学习的方法包括基于传统支持向量机、决策树、随机森林、贝叶斯、朴素k近邻等,这类方法大体上首先经过特征工程过程对输入样本进行特征建模,人工构建样本的特征表示向量,然后利用传统机器学习分类器对人工构建的特征向量样本进行分类。而基于现代机器学习的方法主要是基于特征自学习的相关方法,其首先对输入样本进行特征自学习(有监督或者无监督),然后使用分类器对输入样本进行分类。绝大部分有监督特征学习方法是基于神经网络的,此时一般后接神经网络分类器形成基于神经网络的文本分类器。
[0004]然而,基于现代机器学习的方法其参数量巨大而往往要求巨多的标注数据,在小规模数据集上难以运用降低了分类效果。而基于人工特征工程的方法通常将不同的词视为无关的个体而缺乏词语语义理解,同时需要人为 ...
【技术保护点】
【技术特征摘要】
1.一种标讯章节文本分类方法,其特征在于,包括:预处理原始标讯章节文本,得到训练标讯章节文本;对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量;基于线性规划约束条件,根据所述特征向量和词间马氏距离优化词变矩阵,构建马氏词变距离函数;根据所述马氏词变距离函数训练分类器,利用训练后的分类器预测待分类标讯章节文本的分类标签,确定所述待分类标讯章节文本的类别。2.根据权利要求1所述的方法,其特征在于,所述特征向量包括词特征向量、词特征协方差矩阵和文本向量;所述对所述训练标讯章节文本进行特征表示和词特征构建,得到特征向量,包括:对所述训练标讯章节文本进行特征处理,得到词特征向量以及词特征协方差矩阵;将所述训练标讯章节文本的内嵌结构展平为一级结构,得到数据格式为二元组的标讯章节文本;计算所述标讯章节文本的半结构
‑
词频矩阵和半结构
‑
逆文档频率矩阵;根据所述半结构
‑
词频矩阵和所述半结构
‑
逆文档频率矩阵确定半结构
‑
词频
‑
逆文档频率矩阵并拉成向量,得到文本向量。3.根据权利要求2所述的方法,其特征在于,所述计算所述标讯章节文本的半结构
‑
词频矩阵和半结构
‑
逆文档频率矩阵,包括:以所述标讯章节文本中词的数量作为行数,结构段的数量作为列数,构建空值半结构
‑
词频矩阵和空值半结构
‑
逆文档频率矩阵;基于所述词在所述结构段的文本中出现次数,分别计算各所述词在各所述结构段的文本中的词频,将所述词频作为矩阵元素写入所述空值半结构
‑
词频矩阵中,得到半结构
‑
词频矩阵;基于词典的大小以及所述结构段的数量,分别计算各所述词在各所述结构段的文本中的逆文档频率,将所述逆文档频率作为矩阵元素写入所述空值半结构
‑
逆文档频率矩阵中,得到半结构
‑
逆文档频率矩阵。4.根据权利要求2所述的方法,其特征在于,所述根据所述半结构
‑
词频矩阵和所述半结构
‑
逆文档频率矩阵确定半结构
‑
词频
‑
逆文档频率矩阵并拉成向量,得到文本向量,包括:根据所述半结构
‑
词频矩阵和所述半结构
‑
逆文档频率矩阵计算半结构
‑
词频
‑
逆文档频率矩阵并拉成一维向量,得到文本向量,计算公式如下:其中,x是半结构
‑
词频
‑
...
【专利技术属性】
技术研发人员:段炼,周忠诚,彭文凯,黄九鸣,张圣栋,
申请(专利权)人:厦门星汉数智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。