【技术实现步骤摘要】
一种历史数据的文本检索方法及系统
[0001]本专利技术属于大数据领域,具体涉及一种历史数据的文本检索方法及系统。
技术介绍
[0002]社会数据设备随着时间的叠加规模增大,大型企业的信息系统产生的历史数据越来越多,而且历史数据的增长量也越来越快。
[0003]大型企业的历史数据包含较多的重要信息、敏感信息,基于企业自身业务需求或监管需求,不能轻易删除历史数据,需对信息系统所产生的历史数据进行存储。过去一般采用结构化存储方式,每个存储周期将结构化历史数据全量备份保存于专门搭建的数据库、数据表中,或保存在增设的磁带库中。然而,随着大数据时代的到来,存储于数据库中的结构化历史数据量将飞速增长,从而导致数据库和磁带库消耗的存储资源将越来越大、存储成本将越来越高。
技术实现思路
[0004]本专利技术的目的在于提出一种历史数据的文本检索方法及系统,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
[0005]本专利技术提供了一种历史数据的文本检索方法及系统,输入一个关键词 ...
【技术保护点】
【技术特征摘要】
1.一种历史数据的文本检索方法,在计算机中储存有多个不同的文本文档,每个文本文档有其对应的唯一的索引号,其中以输入的字符串作为关键词对文本文档进行搜索,其特征在于,所述方法包括以下步骤:S100,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表;S200,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列;S300,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组;S400,输入多批关键词,分别获取对应的多个文档对组;S500,根据多个文档对组,计算文本关节点,以文本关节点对计算机中储存的文本文档划分存储空间。2.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S100中,输入一个关键词,通过文字检索技术,获取检索结果,检索结果为文档的列表的方法为:将通过计算机输入设备得到的关键词,通过包括Elasticsearch的文字检索工具,获取检索结果,检索结果为文档的列表,文档的列表由检索得到的各个文档的索引号组成。3.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S200中,将检索结果中的各文档,根据各个文档与关键词的语义相似度进行排序,得到关键词的文档序列的方法为:将检索结果中的各文档,根据各文档中的文字内容,使用预训练语言模型计算各文档中的文字内容与关键词的语义相似度,通过语义相似度的顺序,将各个文档的索引号进行排序得到的序列即为文档序列,索引序列为一个文档在计算机存储系统中的索引。4.根据权利要求1所述的一种历史数据的文本检索方法,其特征在于,在S300中,输入多个不同的关键词作为一批关键词,分别获取这一批关键词中的各关键词的文档序列,再构建文档对组的方法为:分别获取所述一批关键词中的各关键词的文档序列,各文档序列的长度相等,以各文档序列作为矩阵的各列构建一个矩阵作为文档索引矩阵,记所述一批关键词中的各关键词的文档序列中文档序列的数量为m,每个文档序列包含有n个不同的文档的索引号,索引号的数值为正整数,其中,在m个文档序列中各元素的序号为j,在文档序列的n个索引号中各元素的序号为i,i∈[1,n],j∈[1,m],由此将文档索引矩阵记为n行m列的矩阵,使用i为文档索引矩阵的行序号,使用j为文档索引矩阵的列序号,文档索引矩阵中序号为j的列即为在m个文档序列中序号为j的文档序列,文档索引矩阵中列的序号为j而行的序号为i的元素为在m个文档序列中序号j的文档序列中序号i的索引号,记文档索引矩阵中列的序号为j而行的序号为i的元素对应的文档与文档索引矩阵中序号j的列对应的关键词的语义相似度为sim(i,j;j),...
【专利技术属性】
技术研发人员:谢小能,李思伟,蓝建敏,池沐霖,纪绿彬,
申请(专利权)人:京华信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。