【技术实现步骤摘要】
本专利技术涉及信息抽取,尤其涉及一种基于树形结构的文本分割方法和系统。
技术介绍
1、在进行文字搜索时,需要大语言模型结合知识库检索,来实现人们对所需内容的检索。
2、在知识库检索过程中,首先要将各种文档转换为纯文本,再将长文本进行分割,转换为合适大小的短文本,作为嵌入模型的输入,而嵌入模型则会将所有短文本进行向量化,保存到向量数据库中,以便后续进行向量检索,将检索结果作为大预言模型的上下文,使用大预言模型进行问答、推理等操作。
3、当前通用的文本分割方法是递归式字符分割方法(recursivecharatertextsplitter,rcts),默认分割字符为[“\n\n”,“\n”,“”,“”],这种分割方法存在2个弊端,标题行会被分割为独立的短文本,与后续的具体内容失去关联;其次,如果段落太长,可能会在一个句子中间进行分割,造成语义的不完整,这些弊端会严重影响知识库检索结果的准确性和完整性。
技术实现思路
1、本专利技术提供了一种基于树形结构的文本分割方法和系
...【技术保护点】
1.一种基于树形结构的文本分割方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,所述步骤1包括:
3.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,对树形结构文本中叶节点进行分割包括如下步骤:
4.根据权利要求3所述的基于树形结构的文本分割方法,在步骤201中,所述预定约束包括:将叶节点拆分为第一叶节点和第二叶节点时,获取叶节点中句号位置,并按照嵌入模型的字符数限制上限进行拆分。
5.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,树形结构文本的合
...【技术特征摘要】
1.一种基于树形结构的文本分割方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,所述步骤1包括:
3.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,对树形结构文本中叶节点进行分割包括如下步骤:
4.根据权利要求3所述的基于树形结构的文本分割方法,在步骤201中,所述预定约束包括:将叶节点拆分为第一叶节点和第二叶节点时,获取叶节点中句号位置,并按照嵌入模型的字符数限制上限进行拆分。
5.根据权利要求1所述的基于树形结构的文本分割方法,其特征在于,树形结构文本的合并过程包括:
6.根据权利要求...
【专利技术属性】
技术研发人员:唐新春,李阳,颜杰,郭国勇,聂睿,朱林,
申请(专利权)人:湖南傲英创视信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。