System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本公开涉及数据处理领域和大语言模型领域,一种文本信息的确定方法、装置、电子设备及可读存储介质。
技术介绍
1、不同用户的语言表达能力存在差异,由此,用户向计算机等电子设备输入的文本信息可能无法完整、准确地体现用户的真实意图。
2、然而,文本信息是否能体现用户的真实意图会影响计算机基于文本信息的后续操作,如,在查询场景或推荐场景下,文本信息的准确性影响查询结果或推荐结果;或者,在大语言模型(large language model,llm)领域,文本信息的准确性影响llm输出结果的准确性。
技术实现思路
1、本公开的一个方面提供了一种文本信息的确定方法,包括:获取用户输入的第一文本信息;基于第一文本信息,生成领域增强后的第二文本信息;通过与第二文本信息相匹配的多个嵌入模型,分别将第二文本信息转换为向量化后的第一向量;根据多个第一向量的相似向量集,确定与第二文本信息相似的至少一个目标相似向量;以及根据第一文本信息和与至少一个目标相似向量各自关联的上下文信息,确定第三文本信息。
2、可选地,根据多个第一向量的相似向量集,确定与第二文本信息相似的至少一个目标相似向量,包括:根据多个第一向量的相似向量集,确定统一标准后的有序相似向量集;以及从有序相似向量集中确定与第二文本信息相似的至少一个目标相似向量。
3、可选地,根据多个第一向量的相似向量集,确定统一标准后的有序相似向量集,包括:根据相似向量集中多个第二向量各自的相似度信息,消除与不同第一向量相似的多个
4、可选地,通过与第二文本信息相匹配的多个嵌入模型,分别将第二文本信息转换为向量化后的第一向量,包括:将第二文本信息输入用于表征文本信息与嵌入模型适配度的推荐模型,输出多个嵌入模型标识;以及将第二文本信息输入与嵌入模型标识对应的嵌入模型,输出向量化后的第一向量。
5、可选地,推荐模型是通过以下方法训练得到的:将测试样本信息输入待测试的推荐模型,输出多个测试嵌入模型标识,其中,待测试的推荐模型是经过训练后得到的;通过与多个测试嵌入模型标识对应的多个测试嵌入模型,将测试样本信息转换为向量化后的第三向量;根据多个第三向量的相似向量集,确定相似向量集中多个第四向量之间的第一排序信息、以及与同一个第三向量相似的多个第四向量之间的第二排序信息;根据第一排序信息和第二排序信息,确定待测试的推荐模型的评价指标;以及根据评价指标调整待测试的推荐模型的参数,以得到推荐模型。
6、可选地,基于第一文本信息,生成领域增强后的第二文本信息,包括:获取第一文本信息所属的领域;以及根据第一文本信息在领域的补充信息、和第一文本信息,生成第二文本信息。
7、可选地,第一文本信息在领域的补充信息是通过以下方法确定的:根据领域,确定与领域对应的补充信息类型;以及基于补充信息类型,根据第一文本信息,确定补充信息。
8、可选地,相似向量集是通过以下方式得到的:在向量化第二文本信息的嵌入模型的数据库中,确定与嵌入模型输出的第一向量相似的至少一个第二向量。
9、可选地,该方法还包括:将第三文本信息输入大语言模型,输出回答结果;以及将回答结果作为第一文本信息的反馈信息,返回用户。
10、本公开的另一个方面提供了一种文本信息的确定装置,包括:获取模块,用于获取用户输入的第一文本信息;生成模块,用于基于第一文本信息,生成领域增强后的第二文本信息;转换模块,用于通过与第二文本信息相匹配的多个嵌入模型,分别将第二文本信息转换为向量化后的第一向量;第一确定模块,用于根据多个第一向量的相似向量集,确定与第二文本信息相似的至少一个目标相似向量;以及第二确定模块,用于根据第一文本信息和与至少一个目标相似向量各自关联的上下文信息,确定第三文本信息。
11、本公开的另一方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得一个或多个处理器执行如上任一项的文本信息的确定方法。
12、本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上任一项的文本信息的确定方法。
13、本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上任一项的文本信息的确定方法。
本文档来自技高网...【技术保护点】
1.一种文本信息的确定方法,包括:
2.根据权利要求1所述的方法,其中,所述根据多个所述第一向量的相似向量集,确定与所述第二文本信息相似的至少一个目标相似向量,包括:
3.根据权利要求2所述的方法,其中,所述根据多个所述第一向量的相似向量集,确定统一标准后的有序相似向量集,包括:
4.根据权利要求1所述的方法,其中,所述通过与所述第二文本信息相匹配的多个嵌入模型,分别将所述第二文本信息转换为向量化后的第一向量,包括:
5.根据权利要求4所述的方法,其中,所述推荐模型是通过以下方法训练得到的:
6.根据权利要求1所述的方法,其中,所述基于所述第一文本信息,生成领域增强后的第二文本信息,包括:
7.根据权利要求6所述的方法,其中,第一文本信息在所述领域的补充信息是通过以下方法确定的:
8.根据权利要求1所述的方法,其中,所述相似向量集是通过以下方式得到的:
9.根据权利要求1所述的方法,其中,所述方法还包括:
10.一种电子设备,包括:
【技术特征摘要】
1.一种文本信息的确定方法,包括:
2.根据权利要求1所述的方法,其中,所述根据多个所述第一向量的相似向量集,确定与所述第二文本信息相似的至少一个目标相似向量,包括:
3.根据权利要求2所述的方法,其中,所述根据多个所述第一向量的相似向量集,确定统一标准后的有序相似向量集,包括:
4.根据权利要求1所述的方法,其中,所述通过与所述第二文本信息相匹配的多个嵌入模型,分别将所述第二文本信息转换为向量化后的第一向量,包括:
5.根...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。