一种基于树形结构的文本分割方法和系统技术方案

技术编号:41959903 阅读:14 留言:0更新日期:2024-07-10 16:44
本发明专利技术涉及信息抽取技术领域,公开了一种基于树形结构的文本分割方法和系统。将待分割的纯文本转换为树形结构文本;遍历叶节点,识别叶节点的节点路径总字符数,根据叶节点的节点路径总字符数和嵌入模型的字符数限制,对树形结构文本中叶节点进行分割和合并;将树形结构文本中分割和合并后的叶节点的标题、正文内容输出到短文本中,完成纯文本的文本分割,通过字符数结合嵌入模型的字符数限制,完成节点的分割和合并,解决了文本分割语义缺失和准确率低的问题。

【技术实现步骤摘要】

本专利技术涉及信息抽取,尤其涉及一种基于树形结构的文本分割方法和系统


技术介绍

1、在进行文字搜索时,需要大语言模型结合知识库检索,来实现人们对所需内容的检索。

2、在知识库检索过程中,首先要将各种文档转换为纯文本,再将长文本进行分割,转换为合适大小的短文本,作为嵌入模型的输入,而嵌入模型则会将所有短文本进行向量化,保存到向量数据库中,以便后续进行向量检索,将检索结果作为大预言模型的上下文,使用大预言模型进行问答、推理等操作。

3、当前通用的文本分割方法是递归式字符分割方法(recursivecharatertextsplitter,rcts),默认分割字符为[“\n\n”,“\n”,“”,“”],这种分割方法存在2个弊端,标题行会被分割为独立的短文本,与后续的具体内容失去关联;其次,如果段落太长,可能会在一个句子中间进行分割,造成语义的不完整,这些弊端会严重影响知识库检索结果的准确性和完整性。


技术实现思路

1、本专利技术提供了一种基于树形结构的文本分割方法和系统,以解决现有的文本本文档来自技高网...

【技术保护点】

1.一种基于树形结构的文本分割方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,所述步骤1包括:

3.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,对树形结构文本中叶节点进行分割包括如下步骤:

4.根据权利要求3所述的基于树形结构的文本分割方法,在步骤201中,所述预定约束包括:将叶节点拆分为第一叶节点和第二叶节点时,获取叶节点中句号位置,并按照嵌入模型的字符数限制上限进行拆分。

5.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,树形结构文本的合并过程包括:

...

【技术特征摘要】

1.一种基于树形结构的文本分割方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,所述步骤1包括:

3.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,对树形结构文本中叶节点进行分割包括如下步骤:

4.根据权利要求3所述的基于树形结构的文本分割方法,在步骤201中,所述预定约束包括:将叶节点拆分为第一叶节点和第二叶节点时,获取叶节点中句号位置,并按照嵌入模型的字符数限制上限进行拆分。

5.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,树形结构文本的合并过程包括:

6.根据权利要求...

【专利技术属性】
技术研发人员:唐新春李阳颜杰郭国勇聂睿朱林
申请(专利权)人:湖南傲英创视信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1