一种无需标注数据的文本分类方法技术

技术编号:36424661 阅读:15 留言:0更新日期:2023-01-20 22:34
本发明专利技术涉及自然语言处理技术领域,具体为一种无需标注数据的文本分类方法,具体步骤有关键词抽取;生成关键词和所在相关文本关系对;文本编码表示;训练模型;文本类别预测;本发明专利技术基于CLIP架构,通过CLIP模型训练使得关键词和关键词所在文本的相关性最大,而关键词和其他文本相关性最小,关键词本身和文本分类名称具有一定的语义相关性,这样在预测阶段,将文本分类名称通过Transformer

【技术实现步骤摘要】
一种无需标注数据的文本分类方法


[0001]本专利技术涉及自然语言处理
,具体为一种无需标注数据的文本分类方法。

技术介绍

[0002]文本分类在智能标签、文本搜索、案件判断、智能诊断等场景中应用广泛。基于深度学习的文本分类已经逐渐成为业界的主流,但是数据标注耗费大量的人力资源,同时繁琐的标注工作降低了工作人员的工作效率,这成为有监督深度学习文本分类的痛点和难点。本专利技术通过关键词和文本类别名称因为在文本中共现或者语义相似,认为关键词的语义表示和文本类别的语义表示具有一定的相似性,通过训练模型使得文本语义表示和关键词的语义表示尽量相似,即等效认为可以使得文本类别的名称的语义表示和文本语义表示尽量相似,则通过文本语义表示搜索最相似的类别名称的语义表示,即完成文本分类任务,本专利技术通过该方法,成功的解决了文本数据标注问题。

技术实现思路

[0003]为实现上述技术效果,本专利技术一种无需标注数据的文本分类方法包括有如下步骤:S1.关键词抽取:将已知的文本类别名称作为类别关键词,将这些关键词以tf

idf的形式设置为最大的值添加到jieba分词工具的tf

idf词典中,保证这些类别关键词在对数据中的每条文本进行关键词抽取的操作时,优先得到每条文本类别关键词,再得到其他关键词,共同组成每条文本的关键词列表;S2.生成关键词和所在相关文本关系对:将每条文本的关键词列表依次与对应所在的文本建立一一对应的映射关系,即多个关系对,每一个关系对形如(关键词,相关文本),做为模型输入源;S3.文本编码表示:将步骤S2中得到的输入源中的关键词经过Transformer

Encoder编码器,而对应所在相关文本经过Transformer

Encoder编码器,分别得到关键词和关键词相关文本的语义表示张量;S4.训练模型:根据已设定好的网络结构和损失函数优化等进行模型训练,训练过程中,以关键词语义表示和相关文本语义表示的相似度为目标,相关的关键词和文本相似度最高,其他不相关的相似度低,直到所有目标都能够收敛稳定,最终通过训练,得到模型;S5.文本类别预测:将已知的用户提供的文本类别名称全部通过Transformer

Encoder网络编码器做语义表示,新输入文本经过使用了步骤S4中的模型参数的网络结构,搜索最相关的文本类别,最终得到文本类别输出结果。
[0004]进一步的,所述的步骤S2中,关键词抽取具体方法为:使用tf

idf算法计算每个文本中的词的重要程度,按重要程度排序,选取关键词作为该条文本候选关键词列表;tf为词频,idf为所有文档的逆文档频率,tf

idf则为两项乘积。
[0005]进一步的,所述步骤3中,生成关键词和所在相关文本关系对具体操作为:假设存
在某文本为x,x关键词列表为[key1,key2,key3,...,keyn],则该条文本生成的关系对即为(key1,x)、(key2,x)、(key3,x)...,(keyn,x),每一条文本都和它的关键词进行映射操作,最终得到一系列的关键词

相关文本关系对,来作为编码前的模型输入源。
[0006]进一步的,根据权利要求3所述的一种无需标注数据的文本分类方法,其特征在于:所述步骤S3中,所述文本编码表示具体操作为:将关系对中的关键词和相关文本内容经过初始文本嵌入操作,即文本向量化,分别输入两个神经网络编码器,分别为关键词编码器和文本编码器,关键词编码器采用Transformer

Encoder,文本编码器采用Transformer

Encoder网络结构来进行文本编码表示;当关键词嵌入表示和相关文本嵌入表示分别输入编码器前时,其张量维度分别为[batch_size, max_len_key],[batch_size, max_len_text];关键词通过Transformer

Encoder后,张量维度为[batch_size, max_len_key, d_model],文本经过Transformer

Encoder编码器后维度为[batch_size, max_len_text, d_model];然后将关键词输出语义表示的第一个token的张量作为关键词整体的语义表示,取第一个,是为了和文本的语义表示保持一致,此时输出张量的维度为[batch_size, d_model],再将第二个维度,同时除以该维度的2范数,作为最终关键词的语义表示,2范数用以向量归一化;相关文本内容输出语义表示的第一个token的张量作为文本整体的语义表示,此时输出张量的维度为[batch_size, d_model],再将第二个维度,同时除以该维度的2范数,作为最终文本内容的语义表示,2范数用以向量归一化;batch_size为批量文本数量;max_len_key为所设定的关键词输入模型的序列最大长度,max_len_text为所设定的文本输入模型的序列最大长度;d_model为文本特征表示的维度。
[0007]进一步的,所述步骤S5中,所述文本编码表示具体操作为:通过步骤S4得到的关键词和相关文本的张量维度均为[batch_size,d_model],将关键词语义表示张量不变,相关文本语义表示张量进行转置,则相关文本语义表示维度变为[d_model,batch_size],此时将关键词语义表示张量和相关文本语义表示张量相乘,得到最终张量维度为[batch_size,batch_size]的张量,这个张量的对角线元素即为关键词和对应的文本之间的余弦相似度,而模型优化目标就是使得对角线元素的值为1,其他位置的值0;对角线元素,则是正样本的相似度,非对角线元素,就是所谓负样本的相似度,即是一个关系对的样本就是正样本,非关系对的样本对就是负样本,模型的损失函数使用交叉熵损失函数,通过这样的目标和损失函数,来通过对数据进行模型训练,最终得到模型参数。
[0008]本专利技术的有益效果是:本专利技术基于CLIP架构,将其两个输入分别改为关键词和关键词所在文本,通过CLIP模型训练使得关键词和关键词所在文本的相关性最大,而关键词和其他文本相关性最小,关键词本身和文本分类名称具有一定的语义相关性,这样在预测阶段,将文本分类名称通过Transformer

Encoder编码器语义表示,然后针对每个文本语义表示后搜索最相关语义表示,该语义表示的文本分类名称即文本的类别,即完成无监督文本分类任务。同时为了增大负样本的概率,采用每保存一次模型,对数据进行一次shuffle打乱操作克服了相关技术中的有监督方案初期难以标注数据的技术问题。
附图说明
[0009]图1为本专利技术整体网络架构图;图2为本专利技术关键词Transformer

Encoder编码器结构图;
图3为本专利技术文本Transformer
...

【技术保护点】

【技术特征摘要】
1.一种无需标注数据的文本分类方法,其特征在于:包括有如下步骤:S1.关键词抽取:将已知的文本类别名称作为类别关键词,将这些关键词以tf

idf的形式设置为最大的值添加到jieba分词工具的tf

idf词典中,保证这些类别关键词在对数据中的每条文本进行关键词抽取的操作时,优先得到每条文本类别关键词,再得到其他关键词,共同组成每条文本的关键词列表;S2.生成关键词和所在相关文本关系对:将每条文本的关键词列表依次与对应所在的文本建立一一对应的映射关系,即多个关系对,每一个关系对形如(关键词,相关文本),做为模型输入源;S3.文本编码表示:将步骤S2中得到的输入源中的关键词经过Transformer

Encoder编码器,而对应所在相关文本经过Transformer

Encoder编码器,分别得到关键词和关键词相关文本的语义表示张量;S4.训练模型:根据已设定好的网络结构和损失函数优化等进行模型训练,训练过程中,以关键词语义表示和相关文本语义表示的相似度为目标,相关的关键词和文本相似度最高,其他不相关的相似度低,直到所有目标都能够收敛稳定,最终通过训练,得到模型;S5.文本类别预测:将已知的用户提供的文本类别名称全部通过Transformer

Encoder网络编码器做语义表示,新输入文本经过使用了步骤S4中的模型参数的网络结构,搜索最相关的文本类别,最终得到文本类别输出结果。2.根据权利要求1所述的一种无需标注数据的文本分类方法,其特征在于:所述的步骤S2中,关键词抽取具体方法为:使用tf

idf算法计算每个文本中的词的重要程度,按重要程度排序,选取关键词作为该条文本候选关键词列表;tf为词频,idf为所有文档的逆文档频率,tf

idf则为两项乘积。3.根据权利要求1所述的一种无需标注数据的文本分类方法,其特征在于:所述步骤3中,生成关键词和所在相关文本关系对具体操作为:假设存在某文本为x,x关键词列表为[key1,key2,key3,...,keyn],则该条文本生成的关系对即为(key1,x)、(key2,x)、(key3,x)...,(keyn,x),每一条文本都和它的关键词进行映射操作,最终得到一系列的关键词

相关文本关系对,来作为编码前的模型输入源。4.根据权利要求3所述的一种无需标注数据的文本分类方法,其特征在于:所述步骤S3中,所述文本编码表示具体操作为:将关系对中的关键词和相关文本内容经过初始文本嵌入操作,即...

【专利技术属性】
技术研发人员:蒋哲峰曹肖攀花榕励陈先磊
申请(专利权)人:中电万维信息技术有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1