多标签文本分类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33470605 阅读：10 留言：0更新日期：2022-05-19 00:48

本发明专利技术涉及人工智能技术，揭露一种多标签文本分类方法，包括：计算文本集中每种文本类别对应的文本类别频率；根据文本类别的种类构建交叉熵损失函数；当获取训练集，将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数，将文本类别频率替换初始损失函数中对应文本类别的文本出现频率，得到目标损失函数；根据目标损失函数，利用训练集对预构建模型进行训练，得到文本识别模型；利用文本识别模型对待识别文本进行文本分类，得到文本识别类别。本发明专利技术还涉及一种区块链技术，所述文本类别频率可以存储在区块链节点中。本发明专利技术还提出一种多标签文本分类装置、设备以及介质。本发明专利技术可以提高多标签文本分类的准确率。签文本分类的准确率。签文本分类的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
多标签文本分类方法、装置、电子设备及存储介质

[0001]本专利技术涉及人工智能技术，尤其涉及一种多标签文本分类方法、装置、电子设备及存储介质。

技术介绍

[0002]文本分类是目前人工智能模型应用比较成熟的应用场景，但是模型训练过程中经常遇到类别不平衡问题，特别是多标签文本分类中，某个标签出现很多，某个标签出现很少。使得训练多标签文本分类模型过程中，会使训练参数偏向某一类，模型的训练精度低，从而导致多标签文本分类的准确率低。

技术实现思路

[0003]本专利技术提供一种多标签文本分类方法、装置、电子设备及存储介质，其主要目的在于提高了多标签文本分类的准确率。
[0004]获取文本集中文本的数量，其中，所述文本集中的每个文本都有对应的文本类别；
[0005]计算所述文本集中每种文本类别对应的文本类别频率；
[0006]构建将所述文本类别的种类作为分类数量的交叉熵损失函数；
[0007]当获取训练集时，将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数，并将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率，得到所述目标损失函数，其中，所述训练集中每条训练文本都有对应的文本类别；根据所述目标损失函数，利用所述训练集对预构建的初始识别模型进行迭代训练，得到所述文本识别模型；
[0008]当获取待识别文本时，利用所述文本识别模型对所述待识别文本进行文本分类，得到文本识别类别。
[0009]可选地，所述计算所述文本...

【技术保护点】

【技术特征摘要】
1.一种多标签文本分类方法，其特征在于，所述方法包括：获取文本集中文本的数量，其中，所述文本集中的每个文本都有对应的文本类别；计算所述文本集中每种文本类别对应的文本类别频率；构建将所述文本类别的种类作为分类数量的交叉熵损失函数；当获取训练集时，将所述交叉熵损失函数转换为包含所述训练集中每种文本类别的文本出现频率的初始损失函数，并将所述文本类别频率替换所述初始损失函数中对应的文本类别的文本出现频率，得到所述目标损失函数，其中，所述训练集中每条训练文本都有对应的文本类别；根据所述目标损失函数，利用所述训练集对预构建的初始识别模型进行迭代训练，得到所述文本识别模型；当获取待识别文本时，利用所述文本识别模型对所述待识别文本进行文本分类，得到文本识别类别。2.如权利要求1所述的多标签文本分类方法，其特征在于，所述计算所述文本集中每种文本类别对应的文本类别频率，包括：计算所述文本集中每种所述文本类别对应的文本数量，得到文本类别数量；根据所述文本类别数量及所述文本集中文本数量进行计算，得到每种所述文本类别对应的文本类别频率。3.如权利要求1所述的多标签文本分类方法，其特征在于，所述训练集为所述文本集的子集。4.如权利要求3所述的多标签文本分类方法，其特征在于，所述根据所述目标损失函数，利用所述训练集对预构建的初始识别模型进行迭代训练，得到所述文本识别模型，包括：步骤A：利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作，得到特征集；步骤B：利用预设的激活函数对所述特征集中的每个特征数据进行计算，得到每个特征数据对应的标签分析值；步骤C：根据所述特征数据对应的特征文本的文本类别确认对应的标签真实值，并利用所述目标损失函数计算所述标签分析值及所述标签真实值之间的损失值；步骤D：若所述损失值大于或等于预设阈值，更新所述初始识别模型的参数，返回上述的步骤A；步骤E：若所述损失值小于预设阈值，得到并输出所述文本识别模型。5.如权利要求1所述的多标签文本分类方法，其特征在于，所述利用所述初始识别模型对所述训练集进行预设次数的卷积池化操作，得到特征集，包括：利用所述初始识别模型中的卷积层对所述训练集每个训练文本进行卷积，得到对应的卷积数据；利用所述初始识别模型中的池化层对所述卷积数据进行平均...

【专利技术属性】
技术研发人员：罗霄，
申请(专利权)人：中国平安人寿保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人