大语言模型用于构建问答库的方法技术

技术编号:39719567 阅读:9 留言:0更新日期:2023-12-17 23:26
本公开提供了一种大语言模型用于构建问答库的方法

【技术实现步骤摘要】
大语言模型用于构建问答库的方法、装置、系统及介质


[0001]本公开一般涉及自然语言处理
,具体涉及一种大语言模型用于构建问答库的方法

装置

系统及介质


技术介绍

[0002]在日常生活中,手册和说明书等非结构化文档的内容精细繁杂,给用户阅读与定位问题带来极大不便,这会导致此类文档利用率非常低,形同虚设

倘若能通过阅读理解技术,将非结构化文档以一问一答的方式提供给用户,势必大幅提升文档利用率和查询便利程度

[0003]目前,申请号为
201811398400.7
的专利公开了一种说明书手册问答方法及系统,但该方案需要人工标注答案,耗时耗力,严重影响了处理效率,具有局限性


技术实现思路

[0004]鉴于相关技术中的上述缺陷或不足,期望提供一种大语言模型用于构建问答库的方法

装置

系统及介质,能够高效生成问答库,方便快捷,提高处理效率,同时降低人力成本

[0005]第一方面,本公开提供一种大语言模型用于构建问答库的方法,所述方法包括:
[0006]获取非结构化文档;
[0007]根据预定义的问答数据格式,将所述非结构化文档转换为标题与段落组;所述问答数据格式包括标题

段落及问答对三元组,所述标题是指所述非结构化文档中独立主题模块的标题或者标题路径,所述段落是指各所述独立主题模块的标题下的全部文本,所述问答对是指所述段落范围内所有有价值的问题与答案集合;
[0008]根据提示语模板,向大语言模型依次输入所述标题与段落组,获得各所述标题与段落组对应的问答对,并形成问答库,其中所述提示语模板用于指导所述大语言模型基于上下文生成目标文本

[0009]可选地,在本公开一些实施例中,所述提示语模板的类型包括量化类型

泛化类型和指定类型中的至少一种

[0010]可选地,在本公开一些实施例中,所述将所述非结构化文档转换为标题与段落组,包括:
[0011]检测所述非结构化文档的目录结构;
[0012]若所述非结构化文档存在目录结构,则按照所述目录结构,分别获取所述非结构化文档对应的标题与段落组

[0013]可选地,在本公开一些实施例中,所述方法还包括:
[0014]若所述非结构化文档不存在目录结构,则基于所述非结构化文档的分隔符,获取所述非结构化文档对应的标题与段落组

[0015]可选地,在本公开一些实施例中,所述分隔符包括分段

标点和章节中的至少一


[0016]第二方面,本公开提供一种大语言模型用于构建问答库的装置,所述装置包括:
[0017]获取单元,用于获取非结构化文档;
[0018]转换单元,用于根据预定义的问答数据格式,将所述非结构化文档转换为标题与段落组;所述问答数据格式包括标题

段落及问答对三元组,所述标题是指所述非结构化文档中独立主题模块的标题或者标题路径,所述段落是指各所述独立主题模块的标题下的全部文本,所述问答对是指所述段落范围内所有有价值的问题与答案集合;
[0019]构建单元,用于根据提示语模板,向大语言模型依次输入所述标题与段落组,获得各所述标题与段落组对应的问答对,并形成问答库,其中所述提示语模板用于指导所述大语言模型基于上下文生成目标文本

[0020]可选地,在本公开一些实施例中,所述提示语模板的类型包括量化类型

泛化类型和指定类型中的至少一种

[0021]可选地,在本公开一些实施例中,所述转换单元还用于检测所述非结构化文档的目录结构;
[0022]若所述非结构化文档存在目录结构,则按照所述目录结构,分别获取所述非结构化文档对应的标题与段落组

[0023]第三方面,本公开提供一种问答系统,所述问答系统的问答库通过第一方面中任意一项所述的构建问答库的方法获得

[0024]第四方面,本公开提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任意一项所述的构建问答库的方法的步骤

[0025]从以上技术方案可以看出,本公开实施例具有以下优点:
[0026]本公开实施例提供了一种大语言模型用于构建问答库的方法

装置

系统及介质,通过将非结构化文档根据预定义的问答数据格式,转换为标题与段落组,而后利用提示语模板来指导大语言模型基于上下文生成目标文本,即向大语言模型依次输入标题与段落组,并获得各标题与段落组对应的问答对,由此能够高效地形成问答库,方便快捷,提高了处理效率,同时无需人工参与,极大地降低了人力成本

附图说明
[0027]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本公开的其它特征

目的和优点将会变得更明显:
[0028]图1为本公开实施例提供的一种大语言模型用于构建问答库的方法的流程示意图;
[0029]图2为本公开实施例提供的一种大语言模型用于构建问答库的方法的示例;
[0030]图3为本公开实施例提供的一种大语言模型用于构建问答库的装置的结构框图

具体实施方式
[0031]为了使本
的人员更好地理解本公开方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅是本
公开一部分实施例,而不是全部的实施例

基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围

[0032]本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等
(
如果存在
)
是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的数据在适当情况下可以互换,以便描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施

[0033]此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或模块的过程

方法

系统

产品或设备不必限于清楚地列出的那些步骤或模块,而是可包括没有清楚地列出的或对于这些过程

方法

产品或设备固有的其它步骤或模块

[0034]需要说明的是,在不冲突的情况下,本公本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种大语言模型用于构建问答库的方法,其特征在于,所述方法包括:获取非结构化文档;根据预定义的问答数据格式,将所述非结构化文档转换为标题与段落组;所述问答数据格式包括标题

段落及问答对三元组,所述标题是指所述非结构化文档中独立主题模块的标题或者标题路径,所述段落是指各所述独立主题模块的标题下的全部文本,所述问答对是指所述段落范围内所有有价值的问题与答案集合;根据提示语模板,向大语言模型依次输入所述标题与段落组,获得各所述标题与段落组对应的问答对,并形成问答库,其中所述提示语模板用于指导所述大语言模型基于上下文生成目标文本
。2.
根据权利要求1所述的方法,其特征在于,所述提示语模板的类型包括量化类型

泛化类型和指定类型中的至少一种
。3.
根据权利要求1至2中任意一项所述的方法,其特征在于,所述将所述非结构化文档转换为标题与段落组,包括:检测所述非结构化文档的目录结构;若所述非结构化文档存在目录结构,则按照所述目录结构,分别获取所述非结构化文档对应的标题与段落组
。4.
根据权利要求3所述的方法,其特征在于,所述方法还包括:若所述非结构化文档不存在目录结构,则基于所述非结构化文档的分隔符,获取所述非结构化文档对应的标题与段落组
。5.
根据权利要求4所述的方法,其特征在于,所述分隔符包括分段

标点和章节中的至少一种
。6.
一种大语言模型用于构建问答库...

【专利技术属性】
技术研发人员:杨喆李全忠
申请(专利权)人:普强时代珠海横琴信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1