一种文本分类方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:33085086 阅读:13 留言:0更新日期:2022-04-15 10:46
本申请实施例提供了一种文本分类方法、装置、计算机设备和存储介质,其中方法包括:获取待分类文本;对待分类文本包括的第一字符集合进行文本分析,得到待分类文本对应的第一向量;对待分类文本包括的第二字符集合进行文本分析,得到待分类文本对应的第二向量;第一字符集合所包含的字符和第二字符集合所包含的字符的长度不相同;根据参考向量集合对待分类文本进行分析,得到待分类文本对应的辅助向量,参考向量集合是根据待分类文本以及与待分类文本关联的多个参考文本得到的;基于第一向量、第二向量和辅助向量对待分类文本进行分类处理,得到待分类文本所属的目标类别,可以提高文本分类的准确性。高文本分类的准确性。高文本分类的准确性。

【技术实现步骤摘要】
一种文本分类方法、装置、计算机设备和存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本分类方法、装置、计算机设备和存储介质。

技术介绍

[0002]近年来,随着用户对媒体应用使用的普及,各种新闻数据上传到网络,以便用户之间进行分享。一般情况下,上传者在新闻数据是会为新闻数据设置标题,以对新闻数据进行简单概括,标题在一定程度上可以成为吸引用户的一个因素。
[0003]但是,为了更大程度地吸引用户浏览上传的媒体数据以获取流量,某些上传者往往会将标题设定为较为吸引用户的内容,该标题反映的内容往往过分夸大,脱离了新闻数据的真实内容,来恶意引起用户点击/播放,这将导致用户在被标题吸引点击观看后,发现新闻数据的内容与标题不符。
[0004]针对此类异常的新闻内容或者文章的文本数据,目前可以使用文本分类模型来自动识别,如传统机器学习模型、深度学习模型等等;通过这些模型对文本进行特征抽取,通过抽取得到的多维的文本特征完成分类任务。在实际应用中发现,目前常见的一些模型对异常文本数据的分析存在不够准确的问题。

技术实现思路

[0005]本申请实施例提供了一种文本分类方法、装置、计算机设备和存储介质,可以提高文本分类的准确性。
[0006]一方面,本申请实施例提供了一种文本分类方法,该方法包括:
[0007]获取待分类文本;
[0008]对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;
[0009]对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;
[0010]根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;
[0011]基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。
[0012]在一个实施例中,所述待分类文本所属的目标类别是由文本分类模型对所述待分类文本进行分类处理确定的,所述文本分类模型包括第一文本处理模块、第二文本处理模块和辅助文本处理模块;
[0013]所述第一向量是由所述第一文本处理模块对所述待分类文本包括的第一字符集
合分析得到的;所述第二向量是由所述第二文本处理模块对所述待分类文本包括的第二字符集合分析得到的;所述辅助向量是由所述辅助文本处理模块根据参考向量集合对所述待分类文本进行分析得到的。
[0014]在一个实施例中,所述辅助文本处理模块包括基于记忆网络构建的分析子模块和特征融合模块,该方法还包括:
[0015]调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果;
[0016]根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,每个参考向量包括类别标签和相似度分数;
[0017]所述根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,包括:
[0018]调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量。
[0019]在一个实施例中,所述调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量,包括:若所述参考向量集合中存在目标参考向量,则将所述目标参考向量对应的相似度分数调整为目标分数,所述目标参考向量是指相似度分数小于相似度阈值的参考向量;调用所述特征融合模块对所述目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量;其中,所述剩余参考向量是指所述参考向量集合中除所述目标参考向量外的参考向量。
[0020]在一个实施例中,所述分析子模块包括第三文本处理模块和记忆网络,所述记忆网络存储参考文本集合所对应的参考文本特征向量,所述参考文本集合所对应的参考文本特征向量是由第四文本处理模型对参考文本集合中的参考文本进行特征向量分析处理得到的,所述调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果,包括:
[0021]调用所述第三文本处理模块对所述待分类文本进行文本处理,得到所述待分类文本对应的文本特征向量;
[0022]调用所述记忆网络对所述文本特征向量与所述参考文本集合所对应的参考文本特征向量进行相似度计算,得到所述文本特征向量与所述参考文本特征向量的相似度分数。
[0023]在一个实施例中,所述参考文本特征向量的数量为多个,所述根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,包括:
[0024]根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;根据所述目标参考文本特征向量对应的类别标签和相似度分数得到所述目标参考文本特征向量对应的参考向量;将所述目标参考文本特征向量对应的参考向量添加到参考向量集合中。
[0025]在一个实施例中,所述根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量,包括:
[0026]将所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数按照
从大到小进行排列,得到排列结果;从所述排列结果中确定前K个相似度分数对应的参考文本特征向量分别作为目标参考文本特征向量,K为大于等于1的整数。
[0027]在一个实施例中,该方法还包括:
[0028]获取目标训练集,所述目标训练集包括多个样本文本,以及每个样本文本对应的类别标签;调用初始模型对所述每个样本文本进行分类处理,得到所述每个样本文本所属的预测类别;根据所述每个样本文本所属的预测类别和对应的类别标签确定模型损失值;基于所述模型损失值更新所述初始模型的模型参数,得到文本分类模型。
[0029]在一个实施例中,所述获取目标训练集,包括:
[0030]获取初始训练集,所述初始训练集包括多个初始训练样本;
[0031]调用文本筛选模型对所述初始训练集进行分类处理,得到每个初始训练样本所属的文本类别以及类别置信度;
[0032]根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,并将所述多个样本文本添加到目标训练集。
[0033]在一个实施例中,所述文本筛选模型输出M个文本类别,所述每个初始训练样本所属的文本类别属于所述M个文本类别中的任一文本类别,所述M为大于或等于1的整数。
[0034]在一个实施例中,根据所述每个初始训练样本所属的文本类别以及类别置信度从所述初始训练集中确定多个样本文本,包括:
[0035]根本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类方法,其特征在于,包括:获取待分类文本;对所述待分类文本包括的第一字符集合进行文本分析,得到所述待分类文本对应的第一向量;对所述待分类文本包括的第二字符集合进行文本分析,得到所述待分类文本对应的第二向量;所述第一字符集合所包含的字符和所述第二字符集合所包含的字符的长度不相同;根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,所述参考向量集合是根据所述待分类文本以及与所述待分类文本关联的多个参考文本得到的;基于所述第一向量、所述第二向量和所述辅助向量对所述待分类文本进行分类处理,得到所述待分类文本所属的目标类别。2.如权利要求1所述的方法,其特征在于,所述待分类文本所属的目标类别是由文本分类模型对所述待分类文本进行分类处理确定的,所述文本分类模型包括第一文本处理模块、第二文本处理模块和辅助文本处理模块;所述第一向量是由所述第一文本处理模块对所述待分类文本包括的第一字符集合分析得到的;所述第二向量是由所述第二文本处理模块对所述待分类文本包括的第二字符集合分析得到的;所述辅助向量是由所述辅助文本处理模块根据参考向量集合对所述待分类文本进行分析得到的。3.如权利要求2所述的方法,其特征在于,所述辅助文本处理模块包括基于记忆网络构建的分析子模块和特征融合模块,所述方法还包括:调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果;根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,每个参考向量包括类别标签和相似度分数;所述根据参考向量集合对所述待分类文本进行分析,得到所述待分类文本对应的辅助向量,包括:调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量。4.如权利要求3所述的方法,其特征在于,所述调用所述特征融合模块对所述每个参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量,包括:若所述参考向量集合中存在目标参考向量,则将所述目标参考向量对应的相似度分数调整为目标分数,所述目标参考向量是指相似度分数小于相似度阈值的参考向量;调用所述特征融合模块对所述目标参考向量包括的类别标签和目标分数、以及剩余参考向量包括的类别标签和相似度分数进行特征融合,得到所述待分类文本对应的辅助向量;其中,所述剩余参考向量是指所述参考向量集合中除所述目标参考向量外的参考向
量。5.如权利要求3所述的方法,其特征在于,所述分析子模块包括第三文本处理模块和记忆网络,所述记忆网络存储参考文本集合所对应的参考文本特征向量,所述参考文本集合所对应的参考文本特征向量是由第四文本处理模型对参考文本集合中的参考文本进行特征向量分析处理得到的,所述调用所述分析子模块对所述待分类文本的文本特征向量和参考文本集合所对应的参考文本特征向量进行相似分析,得到相似分析结果,包括:调用所述第三文本处理模块对所述待分类文本进行文本处理,得到所述待分类文本对应的文本特征向量;调用所述记忆网络对所述文本特征向量与所述参考文本集合所对应的参考文本特征向量进行相似度计算,得到所述文本特征向量与所述参考文本特征向量的相似度分数。6.如权利要求5所述的方法,其特征在于,所述参考文本特征向量的数量为多个,所述根据相似分析结果得到包括一个或者多个参考向量的参考向量集合,包括:根据所述待分类文本的文本特征向量与每个参考文本特征向量的相似度分数确定目标参考文本特征向量;根据所述目标参考文本特征...

【专利技术属性】
技术研发人员:高鹏程贺文嵩顾晓光
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1