一种历史数据的文本检索方法及系统技术方案

技术编号:35795655 阅读:21 留言:0更新日期:2022-12-01 14:46
本发明专利技术提供了一种历史数据的文本检索方法及系统,属于大数据领域,通过文字检索技术,获取检索结果,检索结果为文档的列表;将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到该个关键词的文档序列;输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;输入多批关键词,分别获取对应的多个文档对组;根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间,实现了增强历史数据使用的稳定性与复用性的有益效果。性与复用性的有益效果。性与复用性的有益效果。

【技术实现步骤摘要】
一种历史数据的文本检索方法及系统


[0001]本专利技术属于大数据领域,具体涉及一种历史数据的文本检索方法及系统。

技术介绍

[0002]社会数据设备随着时间的叠加规模增大,大型企业的信息系统产生的历史数据越来越多,而且历史数据的增长量也越来越快。
[0003]大型企业的历史数据包含较多的重要信息、敏感信息,基于企业自身业务需求或监管需求,不能轻易删除历史数据,需对信息系统所产生的历史数据进行存储。过去一般采用结构化存储方式,每个存储周期将结构化历史数据全量备份保存于专门搭建的数据库、数据表中,或保存在增设的磁带库中。然而,随着大数据时代的到来,存储于数据库中的结构化历史数据量将飞速增长,从而导致数据库和磁带库消耗的存储资源将越来越大、存储成本将越来越高。

技术实现思路

[0004]本专利技术的目的在于提出一种历史数据的文本检索方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0005]本专利技术提供了一种历史数据的文本检索方法及系统,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;输入多批关键词,分别获取对应的多个文档对组;根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
[0006]为了实现上述目的,根据本专利技术的一方面,提供一种历史数据的文本检索方法,在计算机中储存有多个不同的文本文档,每个文本文档有其对应的唯一的索引号,其中以输入的字符串作为关键词对文本文档进行搜索,所述方法包括以下步骤:S100,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;S200,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;S300,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;S400,输入多批关键词,分别获取对应的多个文档对组;S500,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。
[0007]进一步地,在S100中,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表的方法为:将通过计算机输入设备得到的关键词,通过包括Elasticsearch
的文字检索工具,获取检索结果,检索结果为文档的列表,文档的列表由检索得到的各个文档的索引号组成。
[0008]进一步地,在S200中,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列的方法为:将检索结果中的各文档,根据各文档中的文字内容,使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度,通过语义相似度的顺序,将各个文档的索引号进行排序得到的序列即为文档序列,索引序列为一个文档在计算机存储系统中的索引。
[0009]进一步地,在S300中,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组的方法为:分别获取所述一批关键词中的各关键词的文档序列,各文档序列的长度相等,以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵,记所述一批关键词中的各关键词的文档序列中文档序列的数量为m,每个文档序列包含有n个不同的文档的索引号,索引号的数值为正整数,其中,在m个文档序列中各元素的序号为j,在文档序列的n个索引号中各元素的序号为i,i∈[1,n],j∈[1,m],由此将文档索引矩阵记为n行m列的矩阵,使用i为文档索引矩阵的行序号,使用j为文档索引矩阵的列序号,文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列,文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号,记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j),记文档索引矩阵中列的序号为j而行的序号为i的元素对应的索引号的数值为val(i,j);进而,构建文档对组的方法为:构建一个与文档索引矩阵的行列大小相同且行列序号相同的二维数组作为该一批关键词的对应的文档对组,并记录文档对组中每个元素与其在文档索引矩阵中相同行列序号的元素的对应的索引号;记文档对组为Du,Du中行序号为i列序号为j的元素记为Du(i,j);计算计算机中储存的各文本文档的索引号的算术平均值为val(avg);则Du(i,j)的数值的计算公式为:,,以此分别计算得到Du中各Du(i,j)的数值,从而构建文档对组Du;(在现有的文本存储技术中,如果不使用所述文档对组,则需要面临n乘以m大小的矩阵计算,其中m和n任一方稍有增加一个维度,计算量都会急剧增加,在此基础上若想利用此数据再进行任何特征工程还是模型学习都会严重加重负担,而构建文档对组有利于将各行各列隐形的语义相似度进行压缩,这将各行各列元素对应的数据间语义相似度有效地归纳,更方便于后续对存储的各关键词的文档序列的复用率的提高以及再次计算成本的减
少)。
[0010]进一步地,在S400中,输入多批关键词,分别获取对应的多个文档对组的方法为:以输入多个不同的关键词作为一批关键词,则以此重复多次得到多批关键词,再获取对应的多个文档对组。
[0011]进一步地,在S500中,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间的方法为:获取多个不同文档对组,并将所述多个不同文档对组所组成的序列作为文档对组序列;记文档对组序列为Dseq,Dseq中元素的数量记为d,Dseq中元素的序号记为t,t∈[1,d],Dseq中序号t的元素为Du_t,各Du_t中行列的数量及行列的序号与Du中行列的数量及行列的序号继续保持一致,Du_t亦为n行m列,Du_t的行序号为i而列序号为j,Du_t中行序号为i列序号为j的元素为Du_t(i,j);对文档对组序列中各个文档对组中相同行序号列序列的位置,计算各个位置的文本关节值,记各个文档对组中行序号为i列序号为j的位置的文本关节值为a(i,j),a(i,j)的数值的计算公式为:,根据各个位置的文本关节值,选取出文本关节值最大的n个位置,再根据所述n个位置在Dseq中序号d的元素中选取相应位置的索引号所对应的文本文档,由此得到n个文本文档,再将这n个文本文档进行去除重复的后组成集合Nset;(本方法这样操作有利于充分利用文本关节值对全体数据的局部性标识作用,在别的现有方法里面经常要再次获取历史数据进行重复计算,尤其是在有数据加入的情况下,而本专利技术所述ns个类别不同于现有技术中的产生方式,不需要对数据长时间的迭代计算,在节省时间的基础上,使得文本文档的大规模储存场景具有稳定性,因为计算得到的ns个类别在分布式数据集群中进行存储区域的划分是可复现的可再次并长期本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种历史数据的文本检索方法,在计算机中储存有多个不同的文本文档,每个文本文档有其对应的唯一的索引号,其中以输入的字符串作为关键词对文本文档进行搜索,其特征在于,所述方法包括以下步骤:S100,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;S200,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;S300,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;S400,输入多批关键词,分别获取对应的多个文档对组;S500,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。2.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S100中,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表的方法为:将通过计算机输入设备得到的关键词,通过包括Elasticsearch的文字检索工具,获取检索结果,检索结果为文档的列表,文档的列表由检索得到的各个文档的索引号组成。3.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S200中,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列的方法为:将检索结果中的各文档,根据各文档中的文字内容,使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度,通过语义相似度的顺序,将各个文档的索引号进行排序得到的序列即为文档序列,索引序列为一个文档在计算机存储系统中的索引。4.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S300中,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组的方法为:分别获取所述一批关键词中的各关键词的文档序列,各文档序列的长度相等,以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵,记所述一批关键词中的各关键词的文档序列中文档序列的数量为m,每个文档序列包含有n个不同的文档的索引号,索引号的数值为正整数,其中,在m个文档序列中各元素的序号为j,在文档序列的n个索引号中各元素的序号为i,i∈[1,n],j∈[1,m],由此将文档索引矩阵记为n行m列的矩阵,使用i为文档索引矩阵的行序号,使用j为文档索引矩阵的列序号,文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列,文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号,记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j),...

【专利技术属性】
技术研发人员:谢小能李思伟蓝建敏池沐霖纪绿彬
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1