【技术实现步骤摘要】
一种基于大语言模型的中文超长文本的分类方法
[0001]技术预设字组
[0002]本专利技术涉及文本分类预设字组,具体涉及一种基于大语言模型的中文超长文本的分类方法。
技术介绍
[0003]文本分类是自然语言处理中最为重要的研究方向之一,文本分类在目前许多场景下均有着广泛的应用,例如舆情分析、垃圾信息和邮件过滤、搜索引擎对网页相关性排序、信息检索、数据挖掘等。
[0004]现有技术中通常采用算法对文本进行解读,然后根据文本的整体内容对文本进行分类操作;但是随着技术的进步,文本的长度也在不断的增加,继续采用算法对文本进行整体读取时,由于文本内容巨大以及且读取速度受到计算机的运算速度限制,导致文本分类速度慢且分类效率低下,因此,提出一种基于大语言模型的中文超长文本的分类方法。
技术实现思路
[0005]本专利技术所要解决的技术问题在于:如何解决文本内容巨大以及且读取速度受到计算机的运算速度限制,导致文本分类速度慢且分类效率低下的问题,提供了一种基于大语言模型的中文超长文本的分类方法。
[0006]本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:
[0007]S1、通过输入设备导入文本内容;
[0008]S2、通过预设的大型语言模型对文本内容进行筛选,得到预分类文本;
[0009]S3、提取预分类文本内容中的至少两个关键词,并导入历史数据中的文本归类信息表,判断文本归类信息表中预设词汇在关键词中的占有量,并根据占有量将关键词替换成文本归类信息表中的预设词 ...
【技术保护点】
【技术特征摘要】
1.一种基于大语言模型的中文超长文本的分类方法,其特征在于,包括以下步骤:S1、通过输入设备导入文本内容;S2、通过预设的大型语言模型对文本内容进行筛选,得到预分类文本;S3、提取预分类文本内容中的至少两个关键词,并导入历史数据中的文本归类信息表,判断文本归类信息表中预设词汇在关键词中的占有量,并根据占有量将关键词替换成文本归类信息表中的预设词汇;S4、根据文本归类信息表中预设词汇的所在的类别对文本进行归类,从而得到文本归类信息;S5、导出文本归类信息,并将文本归类信息发送至预设终端。2.根据权利要求1所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述S2具体包括:S21、读取文本内容,对文本标题进行识别,具体识别过程如下:首先获取文本字体信息,根据文本字体信息将文本内容进行分割,将同类型并连续排列的文字分割在一起;再根据字体大小对不同类型的文字进行排序;将最大字体归类为主标题,将最小字体归类为正文,将最大字体相邻的标题归类为摘要标题,将其余字体按照字体大小顺序依次分成多级标题并分别进行归类;S22、对不同文本标题进行不同的类型标记;S23、根据类型标记筛选并提取文字内容制作预分类文本。3.根据权利要求1所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述预分类文本包括主标题分类文本,关键词包括第一关键词,所述S3具体包括:S31、获取主标题分类文本,并对预分类文本进行去噪,具体去噪过程为:导入语言模型数据,对预分类文本中的文字内容进行识别;将文字内容中的停用词进行剔除;提取出文字内容中的多个第一关键词;S32、获取主标题分类文本中的多个第一关键词,先对多个第一关键词进行分类,再对多个第一关键词进行统计;S33、导入历史数据中的文本归类信息表,在文本归类信息表中逐个对第一关键词进行检索;S34、根据检索结果,对文本归类信息表中不同类别中占有的第一关键词的数量进行统计;S35、计算文本归类信息表中预设词汇在多个第一关键词中的占有量Q,具体计算过程为:Q=A1/A2其中,A1为文本归类信息表中预设词汇在多个第一关键词中共有词汇的数量,A2为多个第一关键词的总数量;当Q≥预设阈值B时,则关键词在文本归类信息表的同一类别中的数量多,文本内容与该类别的相似程度大,将第一关键词替换成对应类别的预设词汇;当Q<预设阈值B时,则关键词在文本归类信息表的同一类别中的数量少,文本内容与
该类别的相似程度小,关键词数量过少,不能对文本内容进行分类。4.根据权利要求3所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述去噪过程还包括:先对连续重复的文字内容进行识别,再筛选出连续重复的最小单元,最后将连续重复出现的最小单元进行合并以简化分类文本的内容。5.根据权利要求3所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述预分类文本...
【专利技术属性】
技术研发人员:孙剑,周慰,丁雪芹,施方雄,刘畅,任俊侠,
申请(专利权)人:中通服和信科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。