多标签文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33470605 阅读:10 留言:0更新日期:2022-05-19 00:48
本发明专利技术涉及人工智能技术,揭露一种多标签文本分类方法,包括:计算文本集中每种文本类别对应的文本类别频率;根据文本类别的种类构建交叉熵损失函数;当获取训练集,将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数,将文本类别频率替换初始损失函数中对应文本类别的文本出现频率,得到目标损失函数;根据目标损失函数,利用训练集对预构建模型进行训练,得到文本识别模型;利用文本识别模型对待识别文本进行文本分类,得到文本识别类别。本发明专利技术还涉及一种区块链技术,所述文本类别频率可以存储在区块链节点中。本发明专利技术还提出一种多标签文本分类装置、设备以及介质。本发明专利技术可以提高多标签文本分类的准确率。签文本分类的准确率。签文本分类的准确率。

【技术实现步骤摘要】
多标签文本分类方法、装置、电子设备及存储介质


[0001]本专利技术涉及人工智能技术,尤其涉及一种多标签文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]文本分类是目前人工智能模型应用比较成熟的应用场景,但是模型训练过程中经常遇到类别不平衡问题,特别是多标签文本分类中,某个标签出现很多,某个标签出现很少。使得训练多标签文本分类模型过程中,会使训练参数偏向某一类,模型的训练精度低,从而导致多标签文本分类的准确率低。

技术实现思路

[0003]本专利技术提供一种多标签文本分类方法、装置、电子设备及存储介质,其主要目的在于提高了多标签文本分类的准确率。
[0004]获取文本集中文本的数量,其中,所述文本集中的每个文本都有对应的文本类别;
[0005]计算所述文本集中每种文本类别对应的文本类别频率;
[0006]构建将所述文本类别的种类作为分类数量的交叉熵损失函数;
[0007]当获取训练集时,将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数,并将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率,得到所述目标损失函数,其中,所述训练集中每条训练文本都有对应的文本类别;根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型;
[0008]当获取待识别文本时,利用所述文本识别模型对所述待识别文本进行文本分类,得到文本识别类别。
[0009]可选地,所述计算所述文本集中每种文本类别对应的文本类别频率,包括:
[0010]计算所述文本集中每种所述文本类别对应的文本数量,得到文本类别数量;
[0011]根据所述文本类别数量及所述文本集中文本数量进行计算,得到每种所述文本类别对应的文本类别频率。
[0012]可选地,所述训练集为所述文本集的子集。
[0013]可选地,所述根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型,包括:
[0014]步骤A:利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作,得到特征集;
[0015]步骤B:利用预设的激活函数对所述特征集中的每个特征数据进行计算,得到每个特征数据对应的标签分析值;
[0016]步骤C:根据所述特征数据对应的特征文本的文本类别确认对应的标签真实值,并利用所述目标损失函数计算所述标签分析值及所述标签真实值之间的损失值;
[0017]步骤D:若所述损失值大于或等于预设阈值,更新所述初始识别模型的参数,返回上述的步骤A;
[0018]步骤E:若所述损失值小于预设阈值,得到并输出所述文本识别模型。
[0019]可选地,所述利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作,得到特征集,包括:
[0020]利用所述初始识别模型中的卷积层对所述训练集每个训练文本进行卷积,得到对应的卷积数据;
[0021]利用所述初始识别模型中的池化层对所述卷积数据进行平均池化,得到特征数据;
[0022]汇总所有所述特征数据得到所述特征集。
[0023]可选地,所述利用所述文本识别模型对所述待识别文本进行文本分类,得到文本识别类别,包括:
[0024]将所述待识别文本输入所述文本识别模型;
[0025]提取所述文本识别模型中softmax函数计算的不同文本类别的类别识别概率;
[0026]将大于预设识别阈值的所述类别识别概率对应的文本类别确定为所述文本识别类别。
[0027]可选地,所述利用所述文本识别模型对所述待识别文本进行文本分类之后,所述方法还包括:
[0028]将所述待识别文本加入所述文本集,得到更新文本集;
[0029]统计所述更新后的文本集中每种所述文本类别对应的文本数量,得到更新文本类别数量;
[0030]根据所述更新文本类别数量及所述更新文本集中文本数量进行计算,得到每种所述文本类别对应的更新文本类别频率。
[0031]为了解决上述问题,本专利技术还提供一种多标签文本分类装置,所述装置包括:
[0032]函数构建模块,用于获取文本集中文本的数量,其中,所述文本集中的每个文本都有对应的文本类别;计算所述文本集中每种文本类别对应的文本类别频率;构建将所述文本类别的种类作为分类数量的交叉熵损失函数;
[0033]模型训练模块,用于当获取训练集时,将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数,并将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率,得到所述目标损失函数,其中,所述训练集中每条训练文本都有对应的文本类别;根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型;
[0034]文本识别模块,用于当获取待识别文本时,利用所述文本识别模型对所述待识别文本进行文本分类,得到文本识别类别。
[0035]为了解决上述问题,本专利技术还提供一种电子设备,所述电子设备包括:
[0036]存储器,存储至少一个计算机程序;及
[0037]处理器,执行所述存储器中存储的计算机程序以实现上述所述的多标签文本分类方法。
[0038]为了解决上述问题,本专利技术还提供一种计算机可读存储介质,所述计算机可读存
储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的多标签文本分类方法。
[0039]本专利技术实施例将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率,得到所述目标损失函数,其中,所述训练集中每条训练文本都有对应的文本类别;根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型;利用文本分类频率代替对应文本类别的文本出现频率,克服了训练集中文本类别不平衡导致模型训练训练精度差的问题,从而提高了文本分类的准确率;因此本专利技术实施例提出的多标签文本分类方法、装置、电子设备及可读存储介质提高了多标签文本分类的准确率。
附图说明
[0040]图1为本专利技术一实施例提供的多标签文本分类方法的流程示意图;
[0041]图2为本专利技术一实施例提供的多标签文本分类装置的模块示意图;
[0042]图3为本专利技术一实施例提供的实现多标签文本分类方法的电子设备的内部结构示意图;
[0043]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0044]应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。
[0045]本专利技术实施例提供一种多标签文本分类方法。所述多标签文本分类方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述多标签文本分类方法可以由安装在终端设备本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签文本分类方法,其特征在于,所述方法包括:获取文本集中文本的数量,其中,所述文本集中的每个文本都有对应的文本类别;计算所述文本集中每种文本类别对应的文本类别频率;构建将所述文本类别的种类作为分类数量的交叉熵损失函数;当获取训练集时,将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数,并将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率,得到所述目标损失函数,其中,所述训练集中每条训练文本都有对应的文本类别;根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型;当获取待识别文本时,利用所述文本识别模型对所述待识别文本进行文本分类,得到文本识别类别。2.如权利要求1所述的多标签文本分类方法,其特征在于,所述计算所述文本集中每种文本类别对应的文本类别频率,包括:计算所述文本集中每种所述文本类别对应的文本数量,得到文本类别数量;根据所述文本类别数量及所述文本集中文本数量进行计算,得到每种所述文本类别对应的文本类别频率。3.如权利要求1所述的多标签文本分类方法,其特征在于,所述训练集为所述文本集的子集。4.如权利要求3所述的多标签文本分类方法,其特征在于,所述根据所述目标损失函数,利用所述训练集对预构建的初始识别模型进行迭代训练,得到所述文本识别模型,包括:步骤A:利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作,得到特征集;步骤B:利用预设的激活函数对所述特征集中的每个特征数据进行计算,得到每个特征数据对应的标签分析值;步骤C:根据所述特征数据对应的特征文本的文本类别确认对应的标签真实值,并利用所述目标损失函数计算所述标签分析值及所述标签真实值之间的损失值;步骤D:若所述损失值大于或等于预设阈值,更新所述初始识别模型的参数,返回上述的步骤A;步骤E:若所述损失值小于预设阈值,得到并输出所述文本识别模型。5.如权利要求1所述的多标签文本分类方法,其特征在于,所述利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作,得到特征集,包括:利用所述初始识别模型中的卷积层对所述训练集每个训练文本进行卷积,得到对应的卷积数据;利用所述初始识别模型中的池化层对所述卷积数据进行平均...

【专利技术属性】
技术研发人员:罗霄
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1