基于LaBSE的藏文信息检索方法技术

技术编号：41264360 阅读：3 留言：0更新日期：2024-05-11 09:21

本发明专利技术公开了基于LaBSE的藏文信息检索方法，包括以下步骤：S1、将藏文字进行编码，并映射到藏文数据库中进行近义词关联处理，得到语料库；S2、构建藏文信息检索模型，并使用LaBSE模型和语料库对藏文信息检索模型进行训练，得到训练后的藏文信息检索模型；S3、对训练后的藏文信息检索模型进行复杂度优化，得到优化后的藏文信息检索模型；S4、使用优化后的藏文信息检索模型对输入的关键词进行藏文信息检索，本方法将深度学习融合进藏文信息检索模型，实现了高效便捷的藏文文献检索。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索领域，特别是涉及基于labse的藏文信息检索方法。

技术介绍

1、随着网络上藏文数据的增多，涌现了各种各样的藏文在线资源，为使用和喜欢藏文的人们带来了丰富的信息，但也带来了一些问题。例如，存储格式不统一规范，一些藏文在线资源中包含无关信息，增加了用户收集藏文资源的难度。在藏文信息领域，迫切需要一个性能良好的信息检索模型，帮助用户从大量的藏文在线资源中检索所需信息，即根据用户的查询信息，检索与其相关的藏文文档。中文的信息检索模型已经应用到了日常生活中，人们可以通过“百度”等工具检索与自己需求相关的网络信息。但是，藏文信息检索领域的研究相对较晚，与日趋成熟的中文信息检索模型还有一定的差距。

2、现有的藏文信息检索模型实现了对藏文文本、图片、视频等多种资源集合的检索，解决了藏文自动分词、拼写检查、编码转换等多个问题，但目前对于藏文信息检索模型中查询信息和藏文文档内容语义层面的匹配还没有目的性的研究。

技术实现思路

1、针对现有技术中的上述不足，本专利技术提供的基于labse的藏文信息检索方法解决了现有藏文信息检索模型缺乏查询信息和藏文文档内容语义层面的匹配的问题。

2、为了达到上述专利技术目的，本专利技术采用的技术方案为：基于labse的藏文信息检索方法，包括以下步骤：

3、s1、将藏文字进行编码，并映射到藏文数据库中进行近义词关联处理，得到语料库；

4、s2、构建藏文信息检索模型，并使用labse模型和语料库对藏文信

5、s3、对训练后的藏文信息检索模型进行复杂度优化，得到优化后的藏文信息检索模型；

6、s4、使用优化后的藏文信息检索模型对输入的关键词进行藏文信息检索。

7、进一步地：所述步骤s1中，将藏文字进行编码的方法为：按照前加字、再后加字、基字、下加字、元音、后加字、上加字、音节分隔符的顺序进行编码处理。

8、进一步地：所述步骤s2中，藏文信息检索模型包括依次连接的输入层、嵌入层、bert模型以及输出层；

9、所述藏文信息检索模型对输入数据的处理方法包括以下步骤：

10、s21、使用输入层接收输入的藏文语句，并在输入的藏文语句的起始位置添加起始令牌和末尾位置添加结束令牌，并输入至嵌入层；

11、s22、使用嵌入层将添加起始令牌和结束令牌的藏文词语转换为嵌入向量，并输入至bert模型；

12、s23、使用bert模型提取嵌入向量中目标藏字的查询信息与输入的藏文语句中其它藏字关键信息的相关程度，通过不同的向量空间中提取输入的藏文语句的语义信息，并将其加入到目标藏字的向量表示中，得到融合全文语义信息后的向量表示；

13、s24、使用输出层对融合全文语义信息后的向量表示进行若干个隐藏层的计算，得到输入的藏文语句的特征信息。

14、进一步地：所述步骤s22中，所述嵌入层包括标记子嵌入层、片段子嵌入层和位置子嵌入层；

15、所述步骤s22包括以下分步骤：

16、s221、使用标记子嵌入层将输入的藏文语句中出现频率不高的词语切分为多个词根，并在词根之间添加分隔符，得到词向量表示；

17、s222、使用片段子嵌入层将词向量表示进行二次标记后得到文本向量，将文本向量融入词向量表示中，得到片段向量表示；

18、s223、使用位置子嵌入层将可学习的位置编码添加到片段向量表示中，得到位置向量表示；

19、s224、将词向量表示、片段向量表示和位置向量表示共同作为嵌入向量，并输入至bert模型。

20、进一步地：所述步骤s221中，判断输入的藏文语句中出现频率不高的词语的方法包括以下步骤：

21、s2211、使用分词器将输入的藏文语句切分为若干词，得到包含所有唯一词语的词表；

22、s2212、根据包含所有唯一词语的词表，创建包含词表中所有藏文符号的基础词汇表；

23、s2213、对词表中所有藏文符号进行自由组合，并根据组合后能最大程度增加藏文信息检索模型训练数据时的似然概率，对组合后的词语进行降序排序；

24、s2214、按照排序结果，依次向基础词汇表中添加组合后的词语，直到基础词汇表的容量达到预设值；

25、s2215、将排序后未添加到基础词汇表的词语作为出现频率不高的词语。

26、进一步地：所述步骤s23中，提取输入的藏文语句的语义信息的方法为：

27、通过mlm任务加入掩码信息，使藏文信息检索模型通过更多的语境信息来输出被遮掩的藏字；

28、通过nsp任务预测连续的藏文文本，判断两段藏文文本是否连续。

29、进一步地：所述步骤s3中进行复杂度优化的方法为：使用faiss模型将所有藏文文档的向量数据利用k-means算法将m篇藏文文档聚成n个簇，每个簇为一个集合，每个集合包含具有相似向量数据表示的藏文文档。

30、本专利技术的有益效果为：

31、1.本专利技术研究了藏文信息检索模型的关键构建部分，解决了现有藏文信息检索模型缺乏查询信息和藏文文档内容语义层面的匹配的问题，在实现用户查询信息与藏文文档之间的语义匹配方面取得了重要进展；

32、2.藏文信息检索模型将labse与传统信息检索模型相结合，利用传统信息检索模型的关键字提取方法来获取藏文文档的特征信息；

33、3.通过训练网络模型获取藏文文本中不同藏字的语义信息，从而判断用户查询信息与文档特征信息是否匹配。

本文档来自技高网...

【技术保护点】

1.基于LaBSE的藏文信息检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于LaBSE的藏文信息检索方法，其特征在于，所述步骤S1中，将藏文字进行编码的方法为：按照前加字、再后加字、基字、下加字、元音、后加字、上加字、音节分隔符的顺序进行编码处理。

3.根据权利要求1所述的基于LaBSE的藏文信息检索方法，其特征在于，所述步骤S2中，藏文信息检索模型包括依次连接的输入层、嵌入层、BERT模型以及输出层；

4.根据权利要求3所述的基于LaBSE的藏文信息检索方法，其特征在于，所述步骤S22中，所述嵌入层包括标记子嵌入层、片段子嵌入层和位置子嵌入层；

5.根据权利要求4所述的基于LaBSE的藏文信息检索方法，其特征在于，所述步骤S221中，判断输入的藏文语句中出现频率不高的词语的方法包括以下步骤：

6.根据权利要求3所述的基于LaBSE的藏文信息检索方法，其特征在于，所述步骤S23中，提取输入的藏文语句的语义信息的方法为：

7.根据权利要求1所述的基于LaBSE的藏文信息检索方法，其特征在于，所

...

【技术特征摘要】

1.基于labse的藏文信息检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于labse的藏文信息检索方法，其特征在于，所述步骤s1中，将藏文字进行编码的方法为：按照前加字、再后加字、基字、下加字、元音、后加字、上加字、音节分隔符的顺序进行编码处理。

3.根据权利要求1所述的基于labse的藏文信息检索方法，其特征在于，所述步骤s2中，藏文信息检索模型包括依次连接的输入层、嵌入层、bert模型以及输出层；

4.根据权利要求3所述的基于labse的藏文信息检索方法，其特征在于，所述步骤s22中，所述嵌入层包括标记子嵌入层、片段子嵌入层和...

【专利技术属性】
技术研发人员：严李强，吴瑜，师瑞斌，徐梓恒，田若涵，梁炜恒，
申请(专利权)人：西藏大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人