一种基于大语言模型的中文超长文本的分类方法技术

技术编号：38990889 阅读：9 留言：0更新日期：2023-10-07 10:21

本发明专利技术公开了一种基于大语言模型的中文超长文本的分类方法，包括以下步骤：通过输入设备导入文本内容；通过预设的大型语言模型对文本内容进行筛选，得到预分类文本；提取预分类文本内容中的至少两个关键词，并导入历史数据中的文本归类信息表，判断文本归类信息表中预设词汇在关键词中的占有量，并根据占有量将关键词替换成文本归类信息表中的预设词汇；本发明专利技术以大型语言模型为基础，提取关键词，并根据关键词在历史文本归类信息表中的分类信息，判定文本的分类信息，该分类方法不需要对文本进行整体解读，只需对提取的关键词进行分析处理即可，可以极大降低计算机的运算量，从而提升文本分类的速度和效率。升文本分类的速度和效率。升文本分类的速度和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大语言模型的中文超长文本的分类方法
[0001]技术预设字组
[0002]本专利技术涉及文本分类预设字组，具体涉及一种基于大语言模型的中文超长文本的分类方法。

技术介绍

[0003]文本分类是自然语言处理中最为重要的研究方向之一，文本分类在目前许多场景下均有着广泛的应用，例如舆情分析、垃圾信息和邮件过滤、搜索引擎对网页相关性排序、信息检索、数据挖掘等。
[0004]现有技术中通常采用算法对文本进行解读，然后根据文本的整体内容对文本进行分类操作；但是随着技术的进步，文本的长度也在不断的增加，继续采用算法对文本进行整体读取时，由于文本内容巨大以及且读取速度受到计算机的运算速度限制，导致文本分类速度慢且分类效率低下，因此，提出一种基于大语言模型的中文超长文本的分类方法。

技术实现思路

[0005]本专利技术所要解决的技术问题在于：如何解决文本内容巨大以及且读取速度受到计算机的运算速度限制，导致文本分类速度慢且分类效率低下的问题，提供了一种基于大语言模型的中文超长文本的分类方法。
[0006]本专利技术是通过以下技术方案解决上述技术问题的，本专利技术包括以下步骤：
[0007]S1、通过输入设备导入文本内容；
[0008]S2、通过预设的大型语言模型对文本内容进行筛选，得到预分类文本；
[0009]S3、提取预分类文本内容中的至少两个关键词，并导入历史数据中的文本归类信息表，判断文本归类信息表中预设词汇在关键词中的占有量，并根据占有量将关键词替换成文本归类信息表中的预设词...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型的中文超长文本的分类方法，其特征在于，包括以下步骤：S1、通过输入设备导入文本内容；S2、通过预设的大型语言模型对文本内容进行筛选，得到预分类文本；S3、提取预分类文本内容中的至少两个关键词，并导入历史数据中的文本归类信息表，判断文本归类信息表中预设词汇在关键词中的占有量，并根据占有量将关键词替换成文本归类信息表中的预设词汇；S4、根据文本归类信息表中预设词汇的所在的类别对文本进行归类，从而得到文本归类信息；S5、导出文本归类信息，并将文本归类信息发送至预设终端。2.根据权利要求1所述的一种基于大语言模型的中文超长文本的分类方法，其特征在于：所述S2具体包括：S21、读取文本内容，对文本标题进行识别，具体识别过程如下：首先获取文本字体信息，根据文本字体信息将文本内容进行分割，将同类型并连续排列的文字分割在一起；再根据字体大小对不同类型的文字进行排序；将最大字体归类为主标题，将最小字体归类为正文，将最大字体相邻的标题归类为摘要标题，将其余字体按照字体大小顺序依次分成多级标题并分别进行归类；S22、对不同文本标题进行不同的类型标记；S23、根据类型标记筛选并提取文字内容制作预分类文本。3.根据权利要求1所述的一种基于大语言模型的中文超长文本的分类方法，其特征在于：所述预分类文本包括主标题分类文本，关键词包括第一关键词，所述S3具体包括：S31、获取主标题分类文本，并对预分类文本进行去噪，具体去噪过程为：导入语言模型数据，对预分类文本中的文字内容进行识别；将文字内容中的停用词进行剔除；提取出文字内容中的多个第一关键词；S32、获取主标题分类文本中的多个第一关键词，先对多个第一关键词进行分类，再对多个第一关键词进行统计；S33、导入历史数据中的文本归类信息表，在文本归类信息表中逐个对第一关键词进行检索；S34、根据检索结果，对文本归类信息表中不同类别中占有的第一关键词的数量进行统计；S35、计算文本归类信息表中预设词汇在多个第一关键词中的占有量Q，具体计算过程为：Q＝A1/A2其中，A1为文本归类信息表中预设词汇在多个第一关键词中共有词汇的数量，A2为多个第一关键词的总数量；当Q≥预设阈值B时，则关键词在文本归类信息表的同一类别中的数量多，文本内容与该类别的相似程度大，将第一关键词替换成对应类别的预设词汇；当Q＜预设阈值B时，则关键词在文本归类信息表的同一类别中的数量少，文本内容与
该类别的相似程度小，关键词数量过少，不能对文本内容进行分类。4.根据权利要求3所述的一种基于大语言模型的中文超长文本的分类方法，其特征在于：所述去噪过程还包括：先对连续重复的文字内容进行识别，再筛选出连续重复的最小单元，最后将连续重复出现的最小单元进行合并以简化分类文本的内容。5.根据权利要求3所述的一种基于大语言模型的中文超长文本的分类方法，其特征在于：所述预分类文本...

【专利技术属性】
技术研发人员：孙剑，周慰，丁雪芹，施方雄，刘畅，任俊侠，
申请(专利权)人：中通服和信科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人