文本分类方法、装置、计算机设备和计算机可读存储介质制造方法及图纸

技术编号:34255201 阅读:14 留言:0更新日期:2022-07-24 12:30
本发明专利技术涉及人工智能技术领域,提供一种文本分类方法、装置、计算机设备和计算机可读存储介质,文本分类方法包括获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;获取待分类文本;根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;获取预先训练至收敛状态的文本分类模型;基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;根据所述预测概率分布确定所述待分类文本的文本类型,能够达到更强的语义表达能力,提高文本分类的准确性。类的准确性。类的准确性。

Text classification method, device, computer equipment and computer readable storage medium

【技术实现步骤摘要】
文本分类方法、装置、计算机设备和计算机可读存储介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本分类方法、装置、计算机设备和计算机可读存储介质。

技术介绍

[0002]随着人工智能的不断发展,基于深度学习的自然语言处理(Natural Language Processing,NLP)相关技术取得了很大的进步,文本分类是NLP领域中的一个重要应用方向,文本分类是指对包含文本的数据进行分类,从而确定每个文本所属的类别,使得用户能够方便地获取需要的文本。相关技术中通常利用标注的文本语料训练模型,若标注的文本语料数量不足或质量不佳,会导致训练后的模型分类效果变差,另外,由于文本的语义较为复杂,同一个词在不同的语义组合中可能有着完全相反的含义,使得文本的语义表达能力不佳,影响文本分类的准确性。

技术实现思路

[0003]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种文本分类方法、装置、计算机设备和计算机可读存储介质,能够达到更强的语义表达能力,提高文本分类的准确性。
[0004]第一方面,本专利技术实施例提供了一种文本分类方法,包括:
[0005]获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;
[0006]获取待分类文本;
[0007]根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;
[0008]获取预先训练至收敛状态的文本分类模型;
[0009]基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;
[0010]根据所述预测概率分布确定所述待分类文本的文本类型。
[0011]在上述的文本分类方法中,所述根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表,包括:
[0012]根据所述关键词列表生成与所述关键词列表长度一致的第一特征列表;
[0013]根据所述关键词列表中的关键词对所述待分类文本进行匹配;
[0014]若存在匹配成功的关键词,确定匹配成功的关键词在所述关键词列表的第一位置,根据所述第一位置在所述第一特征列表中确定对应的第二位置,将所述第二位置的特征设为第一预设值,否则设为第二预设值。
[0015]在上述的文本分类方法中,所述文本分类模型通过以下步骤训练得到:
[0016]获取所述文本分类任务的训练集,其中,所述训练集包括多条携带有预设分类标签的原始语料;
[0017]根据所述关键词列表对每条所述原始语料进行关键词匹配,生成对应的第二特征列表;
[0018]根据所述关键词列表、每条所述原始语料和对应的第二特征列表训练所述文本分类模型,直至所述文本分类模型达到收敛状态。
[0019]在上述的文本分类方法中,所述对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,包括:
[0020]对所述第一特征列表进行线性回归计算得到第一预测结果;
[0021]根据所述关键词列表和所述第一特征列表计算得到第二预测结果;
[0022]对所述待分类文本进行语义分析得到第三预测结果;
[0023]根据所述第一预测结果、所述第二预测结果和所述第三预测结果计算得到预测概率分布。
[0024]在上述的文本分类方法中,所述关键词由多个字组成,所述根据所述关键词列表和所述第一特征列表计算得到第二预测结果,包括:
[0025]对所述关键词进行处理得到每个字的第一字向量;
[0026]根据多个所述第一字向量计算得到对应的关键词的关键词词向量;
[0027]根据所述关键词列表中每个关键词的关键词词向量和所述第一特征列表计算得到第二预测结果。
[0028]在上述的文本分类方法中,所述根据多个所述第一字向量计算得到对应的关键词的关键词词向量,包括:
[0029]根据所述关键词中的每个字和多个所述第一字向量计算得到每个字的第二字向量;
[0030]确定所述关键词的词长度,根据多个所述第二字向量和所述词长度计算得到关键词词向量。
[0031]在上述的文本分类方法中,所述对所述待分类文本进行语义分析得到第三预测结果,包括:
[0032]对所述待分类文本进行处理得到每个字的第三字向量;
[0033]根据多个所述第三字向量计算得到所述待分类文本的文本语义向量;
[0034]根据所述文本语义向量和所述文本分类模型预设的第一模型参数计算得到第三预测结果。
[0035]第二方面,本专利技术实施例还提供了一种文本分类装置,包括:
[0036]第一获取模块,用于获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;
[0037]第二获取模块,用于获取待分类文本;
[0038]匹配模块,用于根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;
[0039]第三获取模块,用于获取预先训练至收敛状态的文本分类模型;
[0040]预测概率模块,用于基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;
[0041]分类模块,用于根据所述预测概率分布确定所述待分类文本的文本类型。
[0042]第三方面,本专利技术实施例还提供了一种计算机设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的文本分类方法。
[0043]第四方面,本专利技术实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行如上述第一方面所述的文本分类方法。
[0044]本专利技术实施例包括:获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;获取待分类文本;根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;获取预先训练至收敛状态的文本分类模型;基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;根据所述预测概率分布确定所述待分类文本的文本类型。根据本专利技术实施例的技术方案,通过获取关键词列表和待分类文本,利用关键词列表中的关键词对待分类文本进行关键词匹配,生成的第一特征列表能够反映待分类文本的关键词特征,通过利用预先训练至收敛状态的文本分类模型,对待分类文本进行识别,同时结合关键词列表和第一特征列表进行处理,能够考虑到待分类文本中关键词的语义组合,从而达到更强的语义表达能力,根据文本分类模型输出的预测概率分布可以确定待分类文本的文本类型,有利于提高文本分类的准确性。
[0045]本专利技术的其它特征和优点将在随后的说明本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取关键词列表,其中,所述关键词列表包括多个与文本分类任务相关的关键词;获取待分类文本;根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表;获取预先训练至收敛状态的文本分类模型;基于所述文本分类模型,对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,其中,所述预测概率分布包括多个预设分类标签的概率;根据所述预测概率分布确定所述待分类文本的文本类型。2.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述关键词列表对所述待分类文本进行关键词匹配,生成对应的第一特征列表,包括:根据所述关键词列表生成与所述关键词列表长度一致的第一特征列表;根据所述关键词列表中的关键词对所述待分类文本进行匹配;若存在匹配成功的关键词,确定匹配成功的关键词在所述关键词列表的第一位置,根据所述第一位置在所述第一特征列表中确定对应的第二位置,将所述第二位置的特征设为第一预设值,否则设为第二预设值。3.根据权利要求1所述的文本分类方法,其特征在于,所述文本分类模型通过以下步骤训练得到:获取所述文本分类任务的训练集,其中,所述训练集包括多条携带有预设分类标签的原始语料;根据所述关键词列表对每条所述原始语料进行关键词匹配,生成对应的第二特征列表;根据所述关键词列表、每条所述原始语料和对应的第二特征列表训练所述文本分类模型,直至所述文本分类模型达到收敛状态。4.根据权利要求1所述的文本分类方法,其特征在于,所述对所述关键词列表、所述待分类文本和所述第一特征列表进行处理,得到预测概率分布,包括:对所述第一特征列表进行线性回归计算得到第一预测结果;根据所述关键词列表和所述第一特征列表计算得到第二预测结果;对所述待分类文本进行语义分析得到第三预测结果;根据所述第一预测结果、所述第二预测结果和所述第三预测结果计算得到预测概率分布。5.根据权利要求4所述的文本分类方法,其特征在于,所述关键词由多个字组成,所述根据所述关键...

【专利技术属性】
技术研发人员:陆凯
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1