一种基于大语言模型的中文超长文本的分类方法技术

技术编号:38990889 阅读:9 留言:0更新日期:2023-10-07 10:21
本发明专利技术公开了一种基于大语言模型的中文超长文本的分类方法,包括以下步骤:通过输入设备导入文本内容;通过预设的大型语言模型对文本内容进行筛选,得到预分类文本;提取预分类文本内容中的至少两个关键词,并导入历史数据中的文本归类信息表,判断文本归类信息表中预设词汇在关键词中的占有量,并根据占有量将关键词替换成文本归类信息表中的预设词汇;本发明专利技术以大型语言模型为基础,提取关键词,并根据关键词在历史文本归类信息表中的分类信息,判定文本的分类信息,该分类方法不需要对文本进行整体解读,只需对提取的关键词进行分析处理即可,可以极大降低计算机的运算量,从而提升文本分类的速度和效率。升文本分类的速度和效率。升文本分类的速度和效率。

【技术实现步骤摘要】
一种基于大语言模型的中文超长文本的分类方法
[0001]技术预设字组
[0002]本专利技术涉及文本分类预设字组,具体涉及一种基于大语言模型的中文超长文本的分类方法。

技术介绍

[0003]文本分类是自然语言处理中最为重要的研究方向之一,文本分类在目前许多场景下均有着广泛的应用,例如舆情分析、垃圾信息和邮件过滤、搜索引擎对网页相关性排序、信息检索、数据挖掘等。
[0004]现有技术中通常采用算法对文本进行解读,然后根据文本的整体内容对文本进行分类操作;但是随着技术的进步,文本的长度也在不断的增加,继续采用算法对文本进行整体读取时,由于文本内容巨大以及且读取速度受到计算机的运算速度限制,导致文本分类速度慢且分类效率低下,因此,提出一种基于大语言模型的中文超长文本的分类方法。

技术实现思路

[0005]本专利技术所要解决的技术问题在于:如何解决文本内容巨大以及且读取速度受到计算机的运算速度限制,导致文本分类速度慢且分类效率低下的问题,提供了一种基于大语言模型的中文超长文本的分类方法。
[0006]本专利技术是通过以下技术方案解决上述技术问题的,本专利技术包括以下步骤:
[0007]S1、通过输入设备导入文本内容;
[0008]S2、通过预设的大型语言模型对文本内容进行筛选,得到预分类文本;
[0009]S3、提取预分类文本内容中的至少两个关键词,并导入历史数据中的文本归类信息表,判断文本归类信息表中预设词汇在关键词中的占有量,并根据占有量将关键词替换成文本归类信息表中的预设词汇;
[0010]S4、根据文本归类信息表中预设词汇的所在的类别对文本进行归类,从而得到文本归类信息;
[0011]S5、导出文本归类信息,并将文本归类信息发送至预设终端。
[0012]优选的,所述S2具体包括:
[0013]S21、读取文本内容,对文本标题进行识别,具体识别过程如下:
[0014]首先获取文本字体信息,根据文本字体信息将文本内容进行分割,将同类型并连续排列的文字分割在一起;
[0015]再根据字体大小对不同类型的文字进行排序;
[0016]将最大字体归类为主标题,将最小字体归类为正文,将最大字体相邻的标题归类为摘要标题,将其余字体按照字体大小顺序依次分成多级标题并分别进行归类;
[0017]S22、对不同文本标题进行不同的类型标记;
[0018]S23、根据类型标记筛选并提取文字内容制作预分类文本。
[0019]优选的,所述预分类文本包括主标题分类文本,关键词包括第一关键词,所述S3具
体包括:
[0020]S31、获取主标题分类文本,并对预分类文本进行去噪,具体去噪过程为:
[0021]导入语言模型数据,对预分类文本中的文字内容进行识别;
[0022]将文字内容中的停用词进行剔除;
[0023]提取出文字内容中的多个第一关键词;
[0024]S32、获取主标题分类文本中的多个第一关键词,先对多个第一关键词进行分类,再对多个第一关键词进行统计;
[0025]S33、导入历史数据中的文本归类信息表,在文本归类信息表中逐个对第一关键词进行检索;
[0026]S34、根据检索结果,对文本归类信息表中不同类别中占有的第一关键词的数量进行统计;
[0027]S35、计算文本归类信息表中预设词汇在多个第一关键词中的占有量Q,具体计算过程为:
[0028]Q=A1/A2
[0029]其中,A1为文本归类信息表中预设词汇在多个第一关键词中共有词汇的数量,A2为多个第一关键词的总数量;
[0030]当Q≥预设阈值B时,则关键词在文本归类信息表的同一类别中的数量多,文本内容与该类别的相似程度大,将第一关键词替换成对应类别的预设词汇;
[0031]当Q<预设阈值B时,则关键词在文本归类信息表的同一类别中的数量少,文本内容与该类别的相似程度小,关键词数量过少,不能对文本内容进行分类。
[0032]优选的,所述去噪过程还包括:
[0033]先对连续重复的文字内容进行识别,再筛选出连续重复的最小单元,最后将连续重复出现的最小单元进行合并以简化分类文本的内容。
[0034]优选的,所述预分类文本还包括摘要分类文本,关键词还包括第二关键词,当Q<预设阈值B时,S3还包括如下步骤:
[0035]S301、获取摘要分类文本,提取摘要分类文本中的第二关键词;
[0036]S302、筛选并统计第二关键词数量;
[0037]S303、计算第二关键词的词频P1,具体计算过程如下:
[0038]P1=C1/C2
[0039]其中,C1为其中一个第二关键词的个数,C2为第二关键词的中数量;
[0040]S304、根据词频P1对第二关键词进行分级并确定第二关键词的优先级,当词频P1在预设数值范围以上时,为高级预选词,当P1在预设数值范围内时,为中级预选词,当词频P1在预设数值范围以下时,为低级预选词;并规定优先级为高级预选词>中级预选词>低级预选词;
[0041]S305、按照优先级排序依次将第二关键词纳入第一关键词内,并计算文本归类信息表中预设词汇在多个第一关键词中的占有量Q,以提升文本分类的精准度。
[0042]优选的,所述预分类文本还包括正文分类文本,关键词还包括第三关键词,S3还包括如下步骤:
[0043]获取正文分类文本,并提取正文分类文本中的第三关键词;
[0044]筛选并统计第三关键词的数量;
[0045]分别计算第三关键词的词频P2,并对第三关键词进行分类;
[0046]当第三关键词的词频P2≥预设阈值D,则第三关键词在正文中出现的频率高,代表性强,分类为高频关键词;
[0047]当第三关键词的词频P2<预设阈值D,则第三关键词在正文中出现的频率低,代表性弱,分类为低频关键词;
[0048]赋予高频关键词一个修正值E1,赋予低频关键词一个修正值E2,规定E1+E2=1,E1>E2,计算第三关键词参与能力F,具体计算过程为:
[0049]F=P2

*E1+P2

*E2
[0050]其中,P2

为高频关键词的词频,P2

为低级关键词的词频;
[0051]当参与能力F≥预设阈值H时,则第三关键词在正文中出现的次数多,对文本分类的影响程度大,将其纳入第一关键词内,并计算文本归类信息表中预设词汇在多个第一关键词中的占有量Q,以提升文本分类的精准度;
[0052]当参与能力F<预设阈值H时,则第三关键词在正文中出现的次数少,对文本分类的影响程度小,进行舍弃。
[0053]优选的,所述S3还包括如下步骤:
[0054]在文本内容中对预设字组进行检索,当检索到预设字组内容后,提取预设字组前的多个文字作为特定标签,将特定标签与文本归类信息表中的预本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大语言模型的中文超长文本的分类方法,其特征在于,包括以下步骤:S1、通过输入设备导入文本内容;S2、通过预设的大型语言模型对文本内容进行筛选,得到预分类文本;S3、提取预分类文本内容中的至少两个关键词,并导入历史数据中的文本归类信息表,判断文本归类信息表中预设词汇在关键词中的占有量,并根据占有量将关键词替换成文本归类信息表中的预设词汇;S4、根据文本归类信息表中预设词汇的所在的类别对文本进行归类,从而得到文本归类信息;S5、导出文本归类信息,并将文本归类信息发送至预设终端。2.根据权利要求1所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述S2具体包括:S21、读取文本内容,对文本标题进行识别,具体识别过程如下:首先获取文本字体信息,根据文本字体信息将文本内容进行分割,将同类型并连续排列的文字分割在一起;再根据字体大小对不同类型的文字进行排序;将最大字体归类为主标题,将最小字体归类为正文,将最大字体相邻的标题归类为摘要标题,将其余字体按照字体大小顺序依次分成多级标题并分别进行归类;S22、对不同文本标题进行不同的类型标记;S23、根据类型标记筛选并提取文字内容制作预分类文本。3.根据权利要求1所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述预分类文本包括主标题分类文本,关键词包括第一关键词,所述S3具体包括:S31、获取主标题分类文本,并对预分类文本进行去噪,具体去噪过程为:导入语言模型数据,对预分类文本中的文字内容进行识别;将文字内容中的停用词进行剔除;提取出文字内容中的多个第一关键词;S32、获取主标题分类文本中的多个第一关键词,先对多个第一关键词进行分类,再对多个第一关键词进行统计;S33、导入历史数据中的文本归类信息表,在文本归类信息表中逐个对第一关键词进行检索;S34、根据检索结果,对文本归类信息表中不同类别中占有的第一关键词的数量进行统计;S35、计算文本归类信息表中预设词汇在多个第一关键词中的占有量Q,具体计算过程为:Q=A1/A2其中,A1为文本归类信息表中预设词汇在多个第一关键词中共有词汇的数量,A2为多个第一关键词的总数量;当Q≥预设阈值B时,则关键词在文本归类信息表的同一类别中的数量多,文本内容与该类别的相似程度大,将第一关键词替换成对应类别的预设词汇;当Q<预设阈值B时,则关键词在文本归类信息表的同一类别中的数量少,文本内容与
该类别的相似程度小,关键词数量过少,不能对文本内容进行分类。4.根据权利要求3所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述去噪过程还包括:先对连续重复的文字内容进行识别,再筛选出连续重复的最小单元,最后将连续重复出现的最小单元进行合并以简化分类文本的内容。5.根据权利要求3所述的一种基于大语言模型的中文超长文本的分类方法,其特征在于:所述预分类文本...

【专利技术属性】
技术研发人员:孙剑周慰丁雪芹施方雄刘畅任俊侠
申请(专利权)人:中通服和信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1