一种无需标注数据的文本分类方法技术

技术编号：36424661 阅读：15 留言：0更新日期：2023-01-20 22:34

本发明专利技术涉及自然语言处理技术领域，具体为一种无需标注数据的文本分类方法，具体步骤有关键词抽取；生成关键词和所在相关文本关系对；文本编码表示；训练模型；文本类别预测；本发明专利技术基于CLIP架构，通过CLIP模型训练使得关键词和关键词所在文本的相关性最大，而关键词和其他文本相关性最小，关键词本身和文本分类名称具有一定的语义相关性，这样在预测阶段，将文本分类名称通过Transformer

全部详细技术资料下载

【技术实现步骤摘要】
一种无需标注数据的文本分类方法

[0001]本专利技术涉及自然语言处理
，具体为一种无需标注数据的文本分类方法。

技术介绍

[0002]文本分类在智能标签、文本搜索、案件判断、智能诊断等场景中应用广泛。基于深度学习的文本分类已经逐渐成为业界的主流，但是数据标注耗费大量的人力资源，同时繁琐的标注工作降低了工作人员的工作效率，这成为有监督深度学习文本分类的痛点和难点。本专利技术通过关键词和文本类别名称因为在文本中共现或者语义相似，认为关键词的语义表示和文本类别的语义表示具有一定的相似性，通过训练模型使得文本语义表示和关键词的语义表示尽量相似，即等效认为可以使得文本类别的名称的语义表示和文本语义表示尽量相似，则通过文本语义表示搜索最相似的类别名称的语义表示，即完成文本分类任务，本专利技术通过该方法，成功的解决了文本数据标注问题。

技术实现思路

[0003]为实现上述技术效果，本专利技术一种无需标注数据的文本分类方法包括有如下步骤：S1.关键词抽取：将已知的文本类别名称作为类别关键词，将这些关键词以tf
‑
idf的形式设置为最大的值添加到jieba分词工具的tf
‑
idf词典中，保证这些类别关键词在对数据中的每条文本进行关键词抽取的操作时，优先得到每条文本类别关键词，再得到其他关键词，共同组成每条文本的关键词列表；S2.生成关键词和所在相关文本关系对：将每条文本的关键词列表依次与对应所在的文本建立一一对应的映射关系，即多个关系对，每一个关系对形如（关键词，相关文本），

【技术保护点】

【技术特征摘要】
1.一种无需标注数据的文本分类方法，其特征在于：包括有如下步骤：S1.关键词抽取：将已知的文本类别名称作为类别关键词，将这些关键词以tf
‑
idf的形式设置为最大的值添加到jieba分词工具的tf
‑
idf词典中，保证这些类别关键词在对数据中的每条文本进行关键词抽取的操作时，优先得到每条文本类别关键词，再得到其他关键词，共同组成每条文本的关键词列表；S2.生成关键词和所在相关文本关系对：将每条文本的关键词列表依次与对应所在的文本建立一一对应的映射关系，即多个关系对，每一个关系对形如（关键词，相关文本），做为模型输入源；S3.文本编码表示：将步骤S2中得到的输入源中的关键词经过Transformer
‑
Encoder编码器，而对应所在相关文本经过Transformer
‑
Encoder编码器，分别得到关键词和关键词相关文本的语义表示张量；S4.训练模型：根据已设定好的网络结构和损失函数优化等进行模型训练，训练过程中，以关键词语义表示和相关文本语义表示的相似度为目标，相关的关键词和文本相似度最高，其他不相关的相似度低，直到所有目标都能够收敛稳定，最终通过训练，得到模型；S5.文本类别预测：将已知的用户提供的文本类别名称全部通过Transformer
‑
Encoder网络编码器做语义表示，新输入文本经过使用了步骤S4中的模型参数的网络结构，搜索最相关的文本类别，最终得到文本类别输出结果。2.根据权利要求1所述的一种无需标注数据的文本分类方法，其特征在于：所述的步骤S2中，关键词抽取具体方法为：使用tf
‑
idf算法计算每个文本中的词的重要程度，按重要程度排序，选取关键词作为该条文本候选关键词列表；tf为词频，idf为所有文档的逆文档频率，tf
‑
idf则为两项乘积。3.根据权利要求1所述的一种无需标注数据的文本分类方法，其特征在于：所述步骤3中，生成关键词和所在相关文本关系对具体操作为：假设存在某文本为x，x关键词列表为[key1，key2，key3，...，keyn]，则该条文本生成的关系对即为（key1，x）、（key2，x）、（key3，x）...，(keyn,x)，每一条文本都和它的关键词进行映射操作，最终得到一系列的关键词
‑
相关文本关系对，来作为编码前的模型输入源。4.根据权利要求3所述的一种无需标注数据的文本分类方法，其特征在于：所述步骤S3中，所述文本编码表示具体操作为：将关系对中的关键词和相关文本内容经过初始文本嵌入操作，即...

【专利技术属性】
技术研发人员：蒋哲峰，曹肖攀，花榕励，陈先磊，
申请(专利权)人：中电万维信息技术有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人