问答文本数据处理方法、装置、电子设备及介质制造方法及图纸

技术编号:44134433 阅读:24 留言:0更新日期:2025-01-29 10:13
本公开涉及问答文本数据处理技术领域,提供了一种问答文本数据处理方法、装置、电子设备及介质。该方法可以获取待处理的文档数据,将文档数据拆分成多个第一文本序列;通过初始版本的向量检索模型基于各个第一文本序列从文档库中检索与各个第一文本序列匹配的第二文本序列,文档库中包含多个待处理的文档数据;对各个第一文本序列与其对应的第二文本序列进行拼接,得到多个训练文本序列;采用循环迭代的方式,通过无监督方式基于各个训练文本序列对当前版本的向量检索模型进行训练,得到目标版本的向量检索模型,当前版本的向量检索模型包括初始版本的向量检索模型。本公开不仅解决了现有技术中检索模型响应输入内容不足和相关性低的问题。

【技术实现步骤摘要】

本公开涉及问答文本数据处理,尤其涉及一种问答文本数据处理方法、装置、电子设备及介质


技术介绍

1、随着互联网技术的飞速发展,数据的获取、存储和处理变得日益重要。在多种业务场景中,配置和使用文档数据已成为常见的做法。这些文档数据不仅支持日常业务操作,还能为决策提供必要的信息支持。传统上,业务相关的人员需要手动查阅这些文档,这一过程既耗时又低效。为提高效率,近年来出现了利用向量检索模型来优化文档检索过程的技术。这种技术通过将文档内容转换为向量形式,使用机器学习算法训练模型,从而使得业务相关人员能够通过应用程序或网页界面输入查询,快速从庞大的文档库中检索到相关文档。这种方法理论上能够大幅提高信息检索的速度和准确性。

2、然而,专利技术人在研究和应用现有的向量检索技术时发现,尽管这些技术在某些场景下表现良好,但仍存在一些不足之处。具体来说,现有的向量检索模型在处理某些业务相关的查询时,无法有效地响应输入的内容,即输入的查询与检索结果之间的匹配度不高。此外,即使模型能够返回结果,这些结果的相关性往往与实际所需答案的相关性较低。这种低效率的检索不仅影响了本文档来自技高网...

【技术保护点】

1.一种问答文本数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,当所述第一文本序列匹配的所述第二文本序列的个数为多个时,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,对各个所述第一文本序列与其对应的所述第二文本序列进行拼接,得到多个训练文本序列包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,通过大语言模型基于各个所述训练文本序列生成对应的问题文本序列的个数为多个时,所...

【技术特征摘要】

1.一种问答文本数据处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,当所述第一文本序列匹配的所述第二文本序列的个数为多个时,所述方法还包括:

4.根据权利要求3所述的方法,其特征在于,对各个所述第一文本序列与其对应的所述第二文本序列进行拼接,得到多个训练文本序列包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括:

6.根据权利要求5所述的方法,其特征在于,通过大语言模型基于各个所述训练文本序列生成对...

【专利技术属性】
技术研发人员:岳华东刘欢
申请(专利权)人:北京龙智数科科技服务有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1