一种文本信息提取方法、装置、设备及存储介质制造方法及图纸

技术编号:41706511 阅读:20 留言:0更新日期:2024-06-19 12:37
本申请提供了一种文本信息提取方法、装置、设备及存储介质,涉及自然语言处理技术领域,该方法通过先对目标文本进行切片处理,并将其存入向量数据库。然后利用大语言模型对提问文本进行整理,并对提问文本进行改写,能够使其更符合搜索引擎或向量数据库的查询习惯,提高了查询的匹配度。利用大语言模型对搜索结果进行整理,然后通过训练好的信息提取大语言模型,从整理后的文本中提取出与改写后的提问文本对应的答案。通过本申请中的文本信息提取方法能够提高文本信息提取的准确性和提取效率。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种文本信息提取方法、装置、设备及存储介质


技术介绍

1、文本信息提取是指从文本中提取出用户需要的信息或知识,一般来说包括实体识别、关系抽取、事件抽取等。

2、在一些情况下,需要从长文本中提取相关信息,对于现有的自然语言处理技术来说,从长文本中提取信息具有以下缺点:传统的基于规则或统计方法的信息抽取技术难以捕捉长文本中复杂的语境和语义信息,可能会在处理长文本时遇到信息丢失的问题;长文本往往包含大量的语境信息,传统的nlp自然语言处理技术在理解和利用这些语境信息方面表现不佳,导致抽取结果可能不够准确或完整;长文本包含的信息量较大,传统的nlp技术在处理长文本时可能需要消耗大量的计算资源和时间,导致效率低下;长文本中可能涉及多个实体之间复杂的关系,传统的信息抽取技术在实体链接方面可能存在困难,无法准确地将实体关联起来。上述缺点导致对于长文本信息提取的准确性和提取效率较低。

3、基于此,需要一种能够应对不同长度文本信息的文本信息提取方法,以提升文本信息提取的准确性和提取效率。

<br/>

本文档来自技高网...

【技术保护点】

1.一种文本信息提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本按照预设格式进行处理,得到处理后的文本包括:

3.根据权利要求2所述的方法,其特征在于,当所述目标文本为表格类文本时,所述将所述目标文本按照预设格式进行处理,得到处理后的文本包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述提问文本进行改写,得到改写后的提问文本包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述改写后的提问文本在所述向量数据库中进行查询,得到与所述改写后的提问文本对应的文本切片;将所述改写后...

【技术特征摘要】

1.一种文本信息提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述将所述目标文本按照预设格式进行处理,得到处理后的文本包括:

3.根据权利要求2所述的方法,其特征在于,当所述目标文本为表格类文本时,所述将所述目标文本按照预设格式进行处理,得到处理后的文本包括:

4.根据权利要求1所述的方法,其特征在于,所述对所述提问文本进行改写,得到改写后的提问文本包括:

5.根据权利要求1所述的方法,其特征在于,所述基于所述改写后的提问文本在所述向量数据库中进行查询,得到与所述改写后的提问文本对应的文本切片;将所述改写后的提问文本对应的文本切片利用大语言模型进行文本整理,得到整理后的文本包括...

【专利技术属性】
技术研发人员:尹陆鋆
申请(专利权)人:太保科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1