System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种抽取式问答方法及设备技术_技高网

一种抽取式问答方法及设备技术

技术编号:40962378 阅读:2 留言:0更新日期:2024-04-18 20:41
本申请涉及人工智能技术领域,尤其涉及一种抽取式问答方法及设备。获取待回复问题的目标领域对应的目标数据库中针对目标分类记录的每个第一数据,基于待回复问题与每个第一数据之间的相似度,选取相似度高的目标第一数据,并使用大模型在目标第一数据中抽取待回复问题对应的答复信息,通过相似度比较方法,在数据库中选取目标第一数据,可以有效的缩短输入到大模型中的文本的长度,并且大模型为预训练模型,具备强大的语言分析能力,避免了使用海量数据训练模型的困扰,且提高了大模型抽取式问答的准确率。本申请所保护的技术方案具有可靠性、鲁棒性、可泛化性特点,符合可信赖特性。

【技术实现步骤摘要】

本申请涉及人工智能,尤其涉及一种抽取式问答方法及设备


技术介绍

1、抽取式问答是在假设问题的答复信息是给定文件中的字符串的情况下进行的问答任务,也就是说,抽取式问答是在特定的文件中查找到待回复问题的答复信息。

2、相关技术在进行抽取式问答时,一般是使用预先训练完成的模型进行的,而训练该模型往往要使用海量的数据进行训练。而且对于一些更新较为频繁的政策或文件现有方案的答复准确率并不高。

3、因此,如何提高抽取式问答的准确率成为亟待解决的问题。


技术实现思路

1、本申请实施例提供了一种抽取式问答方法及设备,用以解决现有技术中抽取式问答准确率较低的问题。

2、第一方面,本申请提供了一种抽取式问答方法,应用于客户端,所述方法包括:

3、对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类;

4、获取所述目标领域对应的目标数据库中针对所述目标分类记录的每个第一数据,并确定所述待回复问题与每个第一数据分别对应的相似度;

5、根据每个相似度,在所述每个第一数据中选取目标第一数据;

6、将所述待回复问题、所述目标第一数据以及第一提示文本输入到大模型中,得到大模型输出的答复信息,所述第一提示文本用于提示所述大模型在接收到的目标第一数据中提取所述待回复问题对应的答复信息。

7、进一步地,所述对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类之前,所述方法还包括:

>8、接收初始待回复问题,并将所述初始待回复问题和第二提示文本输入到所述大模型中,得到子问题,其中,所述第二提示文本用于提示所述大模型对所述初始待回复问题进行拆分;

9、将每个子问题确定为所述待回复问题,并针对每个待回复问题,继续执行对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类的步骤。

10、进一步地,所述接收初始待回复问题之后,所述将所述初始待回复问题和第二提示文本输入到所述大模型中之前,所述方法包括:

11、获取发送所述初始待回复问题的用户标识;

12、所述将所述初始待回复问题和第二提示文本输入到所述大模型中,得到子问题包括:

13、根据预先配置的每个用户标识与不同大模型之间的对应关系,确定所述用户标识对应的目标大模型;

14、将所述初始待回复问题和第二提示文本输入到所述目标大模型中,得到子问题。

15、进一步地,所述获取所述目标领域对应的目标数据库中针对所述目标分类记录的每个第一数据包括:

16、向任一从服务器发送数据获取指令,所述数据获取指令中携带所述目标领域和所述目标分类,其中,所述从服务器用于从对应的数据库中读取数据;

17、接收该从服务器发送的所述目标领域对应的目标数据库中针对所述目标分类记录的每个第一数据。

18、进一步地,任一数据库的构建过程包括:

19、若接收到数据写入指令,将所述数据写入指令转发给任一主服务器,其中,所述数据写入指令中携带有待写入数据,及所述待写入数据对应的写入领域和写入分类,所述主服务器用于向对应的数据库中写入数据,以使该主服务器在所述写入领域对应的数据库中的所述写入分类对应的数据表中记录所述待写入数据,并将最新的数据库同步至其他主/从服务器。

20、进一步地,所述根据每个相似度,在所述每个第一数据中选取目标第一数据包括:

21、按照相似度的大小对每个第一数据进行排序,并在选取排序前预设数量的第一数据作为目标第一数据;

22、所述将所述待回复问题、所述目标第一数据以及第一提示文本输入到大模型中,得到大模型输出的答复信息包括:

23、将所述预设数量的目标第一数据按照相似度的大小进行排序,得到数据序列;

24、依次针对所述数据序列中的每个目标第一数据,将该目标第一数据与所述待回复问题以及所述第一提示文本输入到大模型中,直至所述大模型输出所述待回复问题的答复信息。

25、进一步地,所述第一数据中包括数据文本以及所述数据文本对应的编码向量;所述确定所述待回复问题与每个第一数据分别对应的相似度包括:

26、确定所述待回复问题的第一特征向量与每个第一数据对应的编码向量之间的相似度。

27、进一步地,所述待回复问题的第一特征向量的确定过程包括:

28、将所述待回复问题输入到预先训练完成的语言表征模型中,得到所述待回复问题中每个字符对应的第二特征向量;

29、针对所述待回复问题中的每个字符,根据该字符在所述每个第一数据中的出现次数,以及所述每个第一数据的数据文本的总字数,确定该字符的出现频率;根据所述目标领域包括的文件的数量,以及包括该字符的目标文件的数量,确定该字符的重要值;根据所述出现频率和所述重要值,确定该字符的目标权重;根据所述目标权重以及该字符对应的第二特征向量,确定该字符的第三特征向量;

30、根据每个字符对应的第三特征向量,确定所述待回复问题的第一特征向量。

31、进一步地,对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类包括:

32、将所述待回复问题输入到预先训练完成的分类模型中,得到所述分类模型输出的每个预设领域对应的第一概率,及每个预设分类对应的第二概率;

33、根据每个第一概率以及第一概率阈值,确定所述待回复问题对应的目标领域;

34、根据每个第二概率以及第二概率阈值,确定所述待回复问题对应的目标分类。

35、进一步地,所述分类模型的训练过程包括:

36、获取训练集,所述训练集中包括多个样本文本,以及每个样本文本对应的标签,所述标签用于标识对应的样本文本对应的标准领域和标准分类;

37、针对每个样本文本,确定该样本文本的词向量编码;将所述词向量编码输入到初始分类模型中,所述初始分类模型的特征提取层确定该样本文本中每个字符对应的第四特征向量,并将每个第四特征向量输入到全连接层;所述全连接层的每个神经网络对所有第四特征向量进行处理,得到每个神经网络输出的第五特征向量;针对每个第五特征向量,基于针对该第五特征向量对应的神经网络保存的激活函数,对该第五特这向量进行处理,得到该神经网络对应的预设领域或预设分类的输出值;

38、根据每个输出值、输出阈值、所述标准领域和所述标准分类,确定目标损失值,并基于所述目标损失值对所述初始分类模型进行训练,得到所述分类模型。

39、第二方面,本申请提供了一种抽取式问答装置,所述装置包括:

40、确定模块,用于对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类;

41、获取模块,用于获取所述目标领域对应的目标数据库中针对所述目标分类记录的每个第一数据;

42、所述确定模块,还用于确定所述待回复问题与每个本文档来自技高网...

【技术保护点】

1.一种抽取式问答方法,其特征在于,应用于客户端,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述接收初始待回复问题之后,所述将所述初始待回复问题和第二提示文本输入到所述大模型中之前,所述方法包括:

4.根据权利要求1所述的方法,其特征在于,所述获取所述目标领域对应的目标数据库中针对所述目标分类记录的每个第一数据包括:

5.根据权利要求1所述的方法,其特征在于,任一数据库的构建过程包括:

6.根据权利要求1所述的方法,其特征在于,所述第一数据中包括数据文本以及所述数据文本对应的编码向量;所述确定所述待回复问题与每个第一数据分别对应的相似度包括:

7.根据权利要求6所述的方法,其特征在于,所述待回复问题的第一特征向量的确定过程包括:

8.根据权利要求1所述的方法,其特征在于,对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类包括:</p>

9.根据权利要求8所述的方法,其特征在于,所述分类模型的训练过程包括:

10.一种电子设备,其特征在于,所述电子设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-9任一项所述抽取式问答方法的步骤。

...

【技术特征摘要】

1.一种抽取式问答方法,其特征在于,应用于客户端,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述对待回复问题进行语义分析,确定所述待回复问题对应的目标领域和目标分类之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述接收初始待回复问题之后,所述将所述初始待回复问题和第二提示文本输入到所述大模型中之前,所述方法包括:

4.根据权利要求1所述的方法,其特征在于,所述获取所述目标领域对应的目标数据库中针对所述目标分类记录的每个第一数据包括:

5.根据权利要求1所述的方法,其特征在于,任一数据库的构建过程包括:

6.根据权利要求1...

【专利技术属性】
技术研发人员:张宁刘微孟卫明刘鹏袁岩杜兆臣葛赛赛杨成喆
申请(专利权)人:海信集团控股股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1