System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的数据检索系统技术方案_技高网
当前位置: 首页 > 专利查询>安徽大学专利>正文

一种基于大语言模型的数据检索系统技术方案

技术编号:40317431 阅读:9 留言:0更新日期:2024-02-07 21:00
本发明专利技术公开了一种基于大语言模型的数据检索系统,包括:转换模型,对输入语言进行跨语言的转换,将输入语言转换为输出语言,基于输出语言进行大语言模型的数据检索,对输入语言进行扩展检索,生成扩展语言集,根据扩展语言集与输入语言之间的关联度进行计算,获取扩展语言集中输入语言的语义,根据输入语言语义的限定,进行输入语言与输出语言的转换。本发明专利技术通过对关键词的扩展来增加对关键词语义的限定,并根据所生成的限定来缩小跨语言的语义,从而增加跨语言进行关键词的检索时,输入语言与输出语言之间的相通性,进而来确保在进行跨语言检索时,反馈结果与预期值的匹配程度。

【技术实现步骤摘要】

本专利技术涉及数据检索,具体为一种基于大语言模型的数据检索系统


技术介绍

1、跨语言数据检索 (cross-language data retrieval, cldr) 是一种从不同语言的数据集中查找相关信息的过程,通常需要使用自然语言处理和机器翻译等技术实现。

2、而跨语言进行数据检索存在以下问题:

3、语言资源的缺乏和质量、由于跨语言数据检索需要依赖一定的语言资源,如双语词典、机器可读词典、机器翻译、语料库等,来实现不同语言之间的翻译和匹配,因此语言资源的缺乏和质量会直接影响跨语言数据检索的效果;

4、词的歧义和多义性、由于不同语言之间的词汇可能存在歧义和多义性,即一个词在不同的语境中可能有不同的含义或对应不同的词,因此在跨语言数据检索中需要解决词的歧义和多义性问题,以提高翻译和匹配的准确性;

5、词的切分和索引、由于一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号,因此在跨语言数据检索中需要解决词的切分和索引问题,以提高检索系统的速度和质量;

6、输出结果的排序和展示、由于跨语言数据检索的结果可能包含多种语言的信息,因此需要解决输出结果的排序和展示问题,如何对不同语言的信息进行相关度计算、如何对用户进行友好和可解释的展示。

7、中国专利公告号cn106372187b公开了一种面向大数据的跨语言检索方法,面向大数据的跨语言检索方法采用中英维基百科词条及词条间的跨语言关系,构建双语词向量模型,再利用这个双语词向量模型对查询做翻译,最后根据候选译文构建新的查询执行检索。跨语言检索模型以源语言查询向量为输入,输出和查询向量语义相近的目标语言文档的相似度;查询翻译过程中,采用典型关联分析的结果。该申请利用不同语种之间文档的语义相似性特点,找到两种语言的共享语义空间,在此共享空间上对查询做语义转述,从而实现查询的自动翻译功能。

8、对于跨语言数据检索而言,检索内容是否符合预期和跨语言翻译精确度有关,跨语言翻译越精确,经过检索所获得的内容越符合预期,而大语言模型对于检索关键内容的翻译往往依靠翻译系统来完成,将检索所生成的语言翻译为所跨语言,再对该语言进行检索,由于语言的多义性,导致了检索内容的偏差,使用者只能够更换含义或进行检索关键内容的修改来完成跨语言检索,导致跨语言检索的难度增加。


技术实现思路

1、本专利技术的目的之一在于提供一种基于大语言模型的数据检索系统,进行跨语言检索时,针对输入语言进行扩展延伸,之后再进行语言的转换,从而形成特定的输出语言词汇以及关键词,降低输入语言与输出语言之间所出现的偏差,减少跨语言检索难度。

2、为实现以上目的,本专利技术通过以下技术方案予以实现:一种基于大语言模型的数据检索系统,包括:

3、转换模型,对输入语言进行跨语言的转换,将输入语言转换为输出语言,基于输出语言进行大语言模型的数据检索,对输入语言进行扩展检索,生成扩展语言集,根据扩展语言集与输入语言之间的关联度进行计算,获取扩展语言集中输入语言的语义,根据输入语言语义的限定,进行输入语言与输出语言的转换;

4、语义限定模型,对输入语言进行关键词的检索,将关键词筛选为核心关键词和限定关键词,通过限定关键词增加对核心关键词的语义限定,对语义限定对核心关键词以及限定关键词的语言转换;

5、校对模块,在输入语言转换为输出语言后,对核心关键词以及限定关键词的语义限定转换来修改输出语言,改变大语言模型的反馈结果。

6、在本专利技术一或多个实施方式中,关键词的检索包括对组成词的筛选,首先将输入语言拆分为不同的词语,即对输入语言中所出现的词语语义进行检索,前后形成完整语义的词语即为一个组成词,在出现歧义词语与前后词语均能够形成完整语义时,对歧义词语与前后词语的语义匹配度进行计算,计算式如下:

7、 ;

8、其中,为歧义词语与前词语组合结果,为歧义词语与后词语组合结果,在歧义词语与前词语或后词语组合时,能够组合为完整语义则或为1不能组合完整语义则或为0,分别为或前后四个组成词与或组合检索出现的数量。

9、在本专利技术一或多个实施方式中,歧义词语与前后词语的语义匹配度时,则进行组合后检索数量大于进行组合检索量;歧义词语与前后词语的语义匹配度时,则进行组合后检索数量小于进行组合检索量,歧义词语与前后词语的语义匹配度时,则进行组成词的扩展计算。

10、在本专利技术一或多个实施方式中,对组成词的核心关键词和限定关键词的筛选,计算每两个组成词进行检索出现的组合检索数量,即:

11、 ;

12、其中,为第x个组成词出现数量,为第n个组成词出现的数量,为第x个组成词与第n个组成词的重复出现数量。

13、在本专利技术一或多个实施方式中,分别计算每两个组成词出现的数量,并筛选组合检索数量最大的组成词,两个组成词中出现数量进行对比,组成词出现次数多的标记为核心关键词,其余组成词为限定关键词。

14、在本专利技术一或多个实施方式中,输入语言进行扩展检索时,根据核心关键词以及限定关键词进行检索扩展,检索核心关键词以及限定关键词,对核心关键词以及限定关键词的检索结果进行记录,生成延伸词语集,延伸词语集包括核心关键词以及限定关键词的名词延伸。

15、在本专利技术一或多个实施方式中,对延伸词语集中核心关键词以及限定关键词的语义进行采集,并采集核心关键词以及限定关键词的翻译,检索核心关键词以及限定关键词的语义是否为多种,并记录核心关键词以及限定关键词与延伸词语集中语义所对应的一种或多种翻译。

16、在本专利技术一或多个实施方式中,核心关键词在进行检索扩展出现多种语义时,通过限定关键词对核心关键词加以限定,即限定关键词与延伸词语集中核心关键词的延伸分别组合进行检索,获取限定关键词与每个延伸词语集内核心关键词的名词或相关组合语言关联性。

17、在本专利技术一或多个实施方式中,在获取限定关键词与每个延伸词语集内核心关键词的名词或相关组合语言关联性后对依然存在多语义的核心关键词进行语义扩展,生成扩展语义,采集扩展语义中的名词,获取扩展语义中的名词与限定关键词的关联性。

18、在本专利技术一或多个实施方式中,进行多次检索时检索输入语言,提取输入语言中的限定关键词再次对核心关键词进行限定,根据限定关键词对核心关键词进行修改,并对已经经过大语言模型检索的反馈结果进行修改。

19、本专利技术提供了一种基于大语言模型的数据检索系统。与现有技术相比具备以下有益效果:

20、1、本专利技术通过对关键词的扩展来增加对关键词语义的限定,并根据所生成的限定来缩小跨语言的语义,从而增加跨语言进行关键词的检索时,输入语言与输出语言之间的相通性,进而来确保在进行跨语言检索时,反馈结果与预期值的匹配程度。

21、2、根据输入语言中的关键词来进行扩展,通过检索其中核心关键词在扩展后与限定关键词是否存在关联,来进行核心关键词语义的分本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的数据检索系统,其特征在于,包括:

2.根据权利要求1所述的一种基于大语言模型的数据检索系统,其特征在于,关键词的检索包括对副助词的筛选,首先将输入语言拆分为不同的词语,即对输入语言中所出现的词语语义进行检索,前后形成完整语义的词语即为一个组成词,在出现歧义词语与前后词语均能够形成完整语义时,对歧义词语与前后词语的语义匹配度进行计算,计算式如下:

3.根据权利要求2所述的一种基于大语言模型的数据检索系统,其特征在于,歧义词语与前后词语的语义匹配度时,则进行组合后检索数量大于进行组合检索量;歧义词语与前后词语的语义匹配度时,则进行组合后检索数量小于进行组合检索量,歧义词语与前后词语的语义匹配度时,则进行组成词的扩展计算。

4.根据权利要求3所述的一种基于大语言模型的数据检索系统,其特征在于,对组成词的核心关键词和限定关键词的筛选,计算每两个组成词进行检索出现的组合检索数量,即:

5.根据权利要求4所述的一种基于大语言模型的数据检索系统,其特征在于,分别计算每两个组成词出现的数量,并筛选组合检索数量最大的组成词,两个组成词中出现数量进行对比,组成词出现次数多的标记为核心关键词,其余组成词为限定关键词。

6.根据权利要求1所述的一种基于大语言模型的数据检索系统,其特征在于,输入语言进行扩展检索时,根据核心关键词以及限定关键词进行检索扩展,检索核心关键词以及限定关键词,对核心关键词以及限定关键词的检索结果进行记录,生成延伸词语集,延伸词语集包括核心关键词以及限定关键词的名词延伸。

7.根据权利要求6所述的一种基于大语言模型的数据检索系统,其特征在于,对延伸词语集中核心关键词以及限定关键词的语义进行采集,并采集核心关键词以及限定关键词的翻译,检索核心关键词以及限定关键词的语义是否为多种,并记录核心关键词以及限定关键词与延伸词语集中语义所对应的一种或多种翻译。

8.根据权利要求7所述的一种基于大语言模型的数据检索系统,其特征在于,核心关键词在进行检索扩展出现多种语义时,通过限定关键词对核心关键词加以限定,即限定关键词与延伸词语集中核心关键词的延伸分别组合进行检索,获取限定关键词与每个延伸词语集内核心关键词的名词或相关组合语言关联性。

9.根据权利要求8所述的一种基于大语言模型的数据检索系统,其特征在于,在获取限定关键词与每个延伸词语集内核心关键词的名词或相关组合语言关联性后对依然存在多语义的核心关键词进行语义扩展,生成扩展语义,采集扩展语义中的名词,获取扩展语义中的名词与限定关键词的关联性。

10.根据权利要求9所述的一种基于大语言模型的数据检索系统,其特征在于,进行多次检索时检索输入语言,提取输入语言中的限定关键词再次对核心关键词进行限定,根据限定关键词对核心关键词进行修改,并对已经经过大语言模型检索的反馈结果进行修改。

...

【技术特征摘要】

1.一种基于大语言模型的数据检索系统,其特征在于,包括:

2.根据权利要求1所述的一种基于大语言模型的数据检索系统,其特征在于,关键词的检索包括对副助词的筛选,首先将输入语言拆分为不同的词语,即对输入语言中所出现的词语语义进行检索,前后形成完整语义的词语即为一个组成词,在出现歧义词语与前后词语均能够形成完整语义时,对歧义词语与前后词语的语义匹配度进行计算,计算式如下:

3.根据权利要求2所述的一种基于大语言模型的数据检索系统,其特征在于,歧义词语与前后词语的语义匹配度时,则进行组合后检索数量大于进行组合检索量;歧义词语与前后词语的语义匹配度时,则进行组合后检索数量小于进行组合检索量,歧义词语与前后词语的语义匹配度时,则进行组成词的扩展计算。

4.根据权利要求3所述的一种基于大语言模型的数据检索系统,其特征在于,对组成词的核心关键词和限定关键词的筛选,计算每两个组成词进行检索出现的组合检索数量,即:

5.根据权利要求4所述的一种基于大语言模型的数据检索系统,其特征在于,分别计算每两个组成词出现的数量,并筛选组合检索数量最大的组成词,两个组成词中出现数量进行对比,组成词出现次数多的标记为核心关键词,其余组成词为限定关键词。

6.根据权利要求1所述的一种基于大语言模型的数据检索系统,其特征在于,输入语言进行扩展检索时,根据核心关键词以及限定关键词进行检索扩展,检索核心关...

【专利技术属性】
技术研发人员:张玉齐褚诗伟鲍文霞
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1