基于语义信息增强的汉字语句分类方法技术

技术编号:35246422 阅读:20 留言:0更新日期:2022-10-19 09:53
本发明专利技术具体涉及基于语义信息增强的汉字语句分类方法,包括:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练时:首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签并融合得到总体预测分类标签,以优化分类模型的模型参数。本发明专利技术能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰。高的汉字对语句的干扰。高的汉字对语句的干扰。

【技术实现步骤摘要】
基于语义信息增强的汉字语句分类方法


[0001]本专利技术涉及自然语言处理
,具体涉及基于语义信息增强的汉字语句分类方法。

技术介绍

[0002]近年来,无论是在图像、音频、文本等各个方向,深度学习都有着巨大发展。在文本领域,预训练模型BERT的提出更是一个划时代的工作。在BERT的基础上,又诞生了诸如ALBERT、RoBERTa等各种改进模型,但这些模型大多以英文等拼音文字为训练对象。正是由于大部分模型最初都是为英语设计的,导致在当前的模型研究中,对汉字语句的研究还不是完全成熟。
[0003]从仓颉造字到现在正在使用的简体字,汉字一步一步演变至今。与拉丁文、英文等拼音文字不同,汉字是非拼音文字,它的象形结构蕴含着更多的信息。为了更好地完成汉字语句的处理,中文语言领域的相关研究正在高速发展。在预训练模型上,百度的中文预训练模型ernie正在被广泛应用于他的任务当中。而对于汉字这一象形文字,也有一些方案对这种结构加以应用,如《改进汉字字形相似度的计算方法》就将偏旁部首的知识表示进行了运用,香侬科技提出的融合字形与拼音信息的预训练模型ChineseBERT、Tao对于汉字的偏旁部首特点提出的RAM模型等都将汉字的结构特征融于深度学习模型的信息中。
[0004]申请人发现,为了方便民众的使用与学习,更快地扫除文盲和普及教育,将一部分不同的繁体汉字简化成了相同的简体汉字,而繁体简化成简体的过程中,损失了汉字原有的先验知识和概念,进而导致汉字出现了语义损失的问题。同时,汉字语句中会有很多比较常见的汉字,比如你、我、他等,这些汉字出现的频率很高,但这些汉字的区分度低,对于整体语句的影响力也很低,例如每一个语句都存在着一个“他”字,那么这个“他”字是无法有效的对分类的准确率产生贡献的,这些区分度不高的汉字对整体语句造成了干扰。因此,如何设计一种能够有效考虑汉字简化过程中的汉字语义损失,且能够消除区分度不高的汉字对语句干扰的汉字语句分类方法是亟需解决的技术问题。

技术实现思路

[0005]针对上述现有技术的不足,本专利技术所要解决的技术问题是:如何提供一种基于语义信息增强的汉字语句分类方法,以能够有效考虑汉字简化过程中的汉字语义损失,并消除区分度不高的汉字对语句的干扰,进而能够融合汉字结构来增强汉字语句的语义信息,从而能够提高汉字语句分类的准确性和实用性。
[0006]为了解决上述技术问题,本专利技术采用了如下的技术方案:
[0007]基于语义信息增强的汉字语句分类方法,包括:
[0008]S1:获取待分类的汉字语句;
[0009]S2:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;
[0010]训练分类模型时,首先基于训练数据集构建与部首关联的区分度字典;其次对训
练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取简体和繁体汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而结合分类表示和上下文表示计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签,进而融合简体和繁体的预测分类标签得到总体预测分类标签,并基于总体预测分类标签优化分类模型的模型参数;
[0011]S3:基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。
[0012]优选的,步骤S2中,通过如下步骤构建区分度字典:
[0013]S201:对于训练数据集中的每个汉字语句:首先获取对应汉字语句中每个部首的出现次数;然后按出现次数从高到低的顺序依次选取部首,并计算各个部首对应的汉字与对应汉字语句的余弦相似度;最后生成各个部首的汉字相似度集;
[0014]S202:融合各个汉字语句中对应部首的汉字相似度集构成对应部首的相似度矩阵;然后计算对应部首的相似度矩阵中对应汉字所有余弦相似度的方差作为该汉字的区分度;
[0015]S203:对于每个汉字语句:对各个部首对应的各个汉字的区分度进行降序排列,得到各个部首的区分度降序列表,进而整合各个部首的区分度降序列表得到该汉字语句的区分度降序列表;
[0016]S204:将各个汉字语句的区分度降序列表进行累加,并对各个部首对应的各个汉字的区分度进行降序排列,得到各个部首的区分度字典。
[0017]优选的,步骤S201中,通过如下公式计算相似度矩阵:
[0018]C
Rn
=cos_sim(set
R
(S
n
)
×
set(R));
[0019]式中:C
Rn
表示部首R的相似度矩阵;cos_sim表示计算余弦相似度;set
R
(S
n
)表示汉字语句S
n
中部首R构成的汉字集合;set(R)表示训练数据集S中部首R构成的汉字集合。
[0020]优选的,步骤S204中,通过如下公式表示区分度字典:
[0021][0022]L
Rni,1
βC
Rni,1

[0023][0024]式中:L
R
表示部首R的区分度字典;n表示训练数据集中汉字语句的数量;L
Ri
表示第i个汉字语句中部首R的区分度降序列表,区分度降序列表是一个两列的数组,第一列是汉字,第二列是对应汉字的区分度;L
Rni,1
表示区分度降序列表的第i行第一列,L
Rni,2
表示区分度降序列表的第i行第二列;C
Rni
表示第n个汉字语句中第i个汉字与该汉字语句的余弦相似度;C
Rni,j
表示第n个汉字语句中第i个汉字与汉字集合set(R)中第j个汉字的余弦相似度;m表示汉字集合set(R)中的汉字数量。
[0025]优选的,步骤S2中,通过如下步骤生成文本最终表示:
[0026]S211:基于区分度字典确定汉字语句中的关键字,并生成关键字矩阵;
[0027]S212:将汉字语句输入至预训练BERT模型,输出汉字语句的分类表示和文本表示;
然后将文本表示输入至BiLSTM模型,生成汉字语句的上下文表示;
[0028]S213:将关键字矩阵作为注意力模块的key和value,然后分别将汉字语句的分类表示和上下文表示作为注意力模块的query;
[0029]S214:将query中的各个汉字向量与关键字矩阵中的关键字一一对应;然后计算各个关键字的注意力权重,进而结合分类表示和上下文表示分别计算对应的分类注意力表示和上下文注意力表示;
[0030]S215:将汉字语句的分类注意力表示、上下文注意力表示、分类表示和上下文表示进行拼接,得到汉字语句的文本最终表示。
[0031]优选的,步骤S211中,通过如下步骤生成关键字矩阵:
[0032]S2111:提取汉字语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于语义信息增强的汉字语句分类方法,其特征在于,包括:S1:获取待分类的汉字语句;S2:将待分类的汉字语句输入经过训练的分类模型中,输出对应的预测分类标签;训练分类模型时,首先基于训练数据集构建与部首关联的区分度字典;其次对训练数据集中的汉字语句进行简繁汉字转换,得到简体和繁体的汉字语句;然后提取简体和繁体汉字语句的分类表示和上下文表示;同时结合区分度字典确定汉字语句中的关键字,并结合注意力机制为各个关键字赋予注意力权重,进而结合分类表示和上下文表示计算简体和繁体的文本最终表示;最后分别基于简体和繁体的文本最终表示生成预测分类标签,进而融合简体和繁体的预测分类标签得到总体预测分类标签,并基于总体预测分类标签优化分类模型的模型参数;S3:基于分类模型输出的预测分类标签生成待分类汉字语句的分类结果。2.如权利要求1所述的基于语义信息增强的汉字语句分类方法,其特征在于:步骤S2中,通过如下步骤构建区分度字典:S201:对于训练数据集中的每个汉字语句:首先获取对应汉字语句中每个部首的出现次数;然后按出现次数从高到低的顺序依次选取部首,并计算各个部首对应的汉字与对应汉字语句的余弦相似度;最后生成各个部首的汉字相似度集;S202:融合各个汉字语句中对应部首的汉字相似度集构成对应部首的相似度矩阵;然后计算对应部首的相似度矩阵中对应汉字所有余弦相似度的方差作为该汉字的区分度;S203:对于每个汉字语句:对各个部首对应的各个汉字的区分度进行降序排列,得到各个部首的区分度降序列表,进而整合各个部首的区分度降序列表得到该汉字语句的区分度降序列表;S204:将各个汉字语句的区分度降序列表进行累加,并对各个部首对应的各个汉字的区分度进行降序排列,得到各个部首的区分度字典。3.如权利要求2所述的基于语义信息增强的汉字语句分类方法,其特征在于:步骤S201中,通过如下公式计算相似度矩阵:C
Rn
=cos_sim(set
R
(S
n
)
×
set(R));式中:C
Rn
表示部首R的相似度矩阵;cos_sim表示计算余弦相似度;set
R
(S
n
)表示汉字语句S
n
中部首R构成的汉字集合;set(R)表示训练数据集S中部首R构成的汉字集合。4.如权利要求3所述的基于语义信息增强的汉字语句分类方法,其特征在于:步骤S204中,通过如下公式表示区分度字典:L
Rni,1
=C
Rni,1
;式中:L
R
表示部首R的区分度字典;n表示训练数据集中汉字语句的数量;L
Ri
表示第i个汉字语句中部首R的区分度降序列表,区分度降序列表是一个两列的数组,第一列是汉字,第二列是对应汉字的区分度;L
Rni,1
表示区分度降序列表的第i行第一列,L
Rni,2
表示区分度
降序列表的第i行第二列;C
Rni
表示第n个汉字语句中第i个汉字与该汉字语句的余弦相似度;C
Rni,j
表示第n个汉字语句中第i个汉字与汉字集合set(R)中第j个汉字的余弦相似度;m表示汉字集合set(R)中的汉字数量。5.如权利要求4所述的基于语义信息增强的汉字语句分类方法,其特征在于:步骤S2中,通过如下步骤生成文本最终表示:S211:基于区分度字典确定汉字语句中的关键字,并生成关键字矩阵;S212:将汉字语句输入至预训练BERT模型,输出汉字语句的分类表示和文本表示;然后将文本表示输入至BiLSTM模型,生成汉字语句的上下文表示;S213:将关键字矩阵作为注意力模块的key和value,然后分别将汉字语句的分类表示和上下文表示作为注意力模块的query;S214:将que...

【专利技术属性】
技术研发人员:李波黄焱鑫
申请(专利权)人:重庆理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1