基于AI技术的多线程数据检索及所检索数据的访问方法技术

技术编号:31167986 阅读:21 留言:0更新日期:2021-12-04 13:26
本发明专利技术公开了一种基于AI技术的多线程数据检索及所检索数据的访问方法。本发明专利技术的检索方法包括对于文件数据进行预处理,基于文件丰度以及文件关联强度形成表示文件关系的连通树;对所录入的检索信息进行特征提取,获取对应的检索关键词;为当前检索分配第一组线程,用于基于关键词进行目标文件检索;根据关键词检索确定检索基础文件;为当前检索分配第二组线程,第二组线程基于连通树进行相关文件的批量调入选定,采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算。所输入的语义信息进行相关度计算。所输入的语义信息进行相关度计算。

【技术实现步骤摘要】
基于AI技术的多线程数据检索及所检索数据的访问方法


[0001]本专利技术涉及大数据和信息
,具体涉及基于AI技术的多线程数据检索及所检索数据的访问方法。

技术介绍

[0002]当今世界,以信息技术为代表的新一轮科技革命方兴未艾,信息技术创新日新月异,以数字化、网络化、智能化为特征的信息化浪潮蓬勃兴起。信息化正在深刻改变人们的生产生活方式。
[0003]随着人工智能以及大数据领域的发展,体现海量数据的存储、索引以及访问是人们必须要解决的一个问题,并且,随着数据量的几何级数增长,人们获得精准数据的需求愈加强烈。
[0004]因此,海量数据场景下的高效查询与检索能力对于推动我国的大数据技术发展具有重要意义。
[0005]当前各种数据纷繁复杂,大数据技术的一个重要作用就是从这些纷繁复杂的数据中寻找的数据之间的关联,加以利用。本专利技术主要针对检索中越来越广泛使用的全文检索或者基于输入的大段文字信息的检索。虽然现有技术中存在着诸多的语义检索方法,但是,这些检索方法都是基于人工智能的分析模型,需要通过大量标注数据对模型进行训练,并且模型运行复杂,对于检索输入的信息量较大时,需求的运算量大,对系统的要求高,并且由于文献内容包罗万象,语言表达方式又差异巨大,导致模型越来越复杂,却也难以适应文献速度的快速增长。

技术实现思路

[0006]针对上述问题,本专利技术提出了一种全新的检索方法,其兼顾现有语义检索并且提出了一种新的数据关联结构方式——连通树,通过连通树的构建,在数据处理阶段即可将大量相关数据进行关联存储,当基于语义检索获得一个突破点之后,可以基于树状的关联结构迅速寻找到与之匹配良好的关联文献,进而大大压缩检索时间,提高检索匹配度。
[0007]具体而言,一方面,本专利技术提供一种基于AI技术的多线程数据检索方法,其特征在于,所述方法包括下述步骤:
[0008]对于文件数据进行预处理,基于文件丰度以及文件关联强度形成表示文件关系的连通树;对所录入的检索信息进行特征提取和/或语义分析;为当前检索分配第一组线程,用于基于通过特征提取获得的关键词和/或语义分析结果从连通树根文件中按照根等级的从高到低进行(利用所提取的关键词或者由关键词所映射的向量,采用TF

IDF或者BM25等常规检索方法)目标文件检索;对基于关键词和/或语义分析检索到的文件进行录入信息与文件之间的相关度计算,并返回所检索到的相关度高于目标阈值的检索基础文件;为当前检索分配第二组线程,第二组线程基于连通树确定所述检索基础文件所属的各个上级根文件以及并列根文件;对各个根文件与所输入的语义信息进行相关度计算,确定与所输入语
义信息相关度最高的若干相关根文件;将上述根文件的所有下级根文件以及叶文件均调入快速缓存,采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算,输出相关度排名靠前的若干文件。
[0009]需要说明的是,根等级的从高到低中的高和低是相对的,越基础的根文件等级越高,越靠近叶文件的根文件等级越低。例如,二级高于三级。
[0010]优选地,确定文件丰度的步骤包括:
[0011]1.1、基于现有各类文献进行关键词提取,获取每类文献所包含的关键词子库,汇总各类关键词子库中的关键词形成关键词库,建立关键词库中各个关键词与文献类别之间的映射关系;
[0012]1.2、对于文件库中每个文件提取其文件内容中的关键词,确定每个关键词的出现频次以及所属文献类别;
[0013]1.3、去除频次低于阈值的关键词,确定各个保留关键词的出现频次,对各个关键词的出现频次分级,形成关键词频次等级;
[0014]1.4、基于关键词类别权重以及关键词的频次等级,计算文件丰度:其中,C
i
表示文件中所包含的第i个关键词的类别权重,该权重根据关键词所属类别的数量增加而增加,该权重根据经验设置,初始时可以采用所属类别数量的2次或3次方根作为输入。H
i
表示该关键词的频次等级。
[0015]优选地,基于文件丰度以及引用文件数和被引用次数确定文件的关联强度Co=a1R+a2Cit+a
3 Rec其中,a1、a2、a3分别为关联系数,Cit表示引用文件数,Rec表示被引用次数。
[0016]上述参数和权重可以基于所获得的关联强度与其他文件之间的相关度是否成正比关系来进行反馈调整,找到能够最好地反映文件关联强度与该文件与其他文件之间的相关度的参数。
[0017]优选地,所述连通树通过下述方式构建:
[0018]2.1、基于现有文件分类方式,对于每一类文件的子库,对各个文件按照文件关联强度进行排序,从中选取关联强度排序最高的若干文件作为根文件;
[0019]2.2、对于当前子库中的每个非根文件,将其分别与各个根文件进行相关度计算,然后将相应非根文件与各个根文件的相关度进行排序,将当前文件归属到对应根文件;
[0020]2.3、对于每个根文件,计算该根文件与每个非根文件的相关度并且计算非根文件的丰度,利用丰度对关联度进行加权(即相同关联度情况下,选取丰度更高的文件作为二级根),对所得结果进行从高到低排序,选取出若干二级根文件;
[0021]2.4、对每个二级根文件,计算该二级根文件与每个所有保留的非根文件的相关度并且计算相应非根文件的丰度,利用丰度对相关度进行加权,对所得结果进行从高到低排序,选取出若干三级根文件,依此类推,计算更多级根文件,直到剩余非根文件与当前类别的总文件数目的比例低于预定值;
[0022]2.5、对剩余每个非根文件进行计算,起算其与各个根文件的相关度,将相关度大于第一阈值的非根文件作为叶文件分配给与其相关度最高的根文件,每个根文件分配的叶文件数目不超过其承载限,若分配给任意一个根文件的叶文件数目超过其承载限,则按相
关度顺序将相关度最低的叶文件分配至相关度次之的根文件。
[0023]优选地,若非根文件与当前分类中的每个根文件的相关度均不大于相关度阈值,则对其进行分类划转,转入其他类别进行相关度计算。
[0024]优选地,当该分类中任意增加一个新文件时,计算该新文件与各个根文件的相关度,将其与相关度最高的文件进行关联作为其叶文件。
[0025]优选地,所述方法还包括对于每个文件,统计连通树中同一分支内,任意一个文件被检索到时,其他文件被检索到的次数,当同一分支内叶文件被检索到的次数高于对应根文件达到预定次数后,对相应分支下的各个文件进行丰度和相关度计算,重新确定当前分支的根文件脉络。
[0026]另一方面,本专利技术提供一种数据访问方法,其特征在于,所述方法包括:根据录入的检索基础文本,采用权利要求1所述的多线程数据检索方法对目标文件进行检索,并且,将所检索到的目标文件缓存到快速缓存中,根据用户输入从快速缓存中调取所选择的目标文件。
[0027]本专利技术的基于AI技术的多线程数据检索方法以及所检索数据的访问方法兼具当前普遍采用的基于关键词的语义检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于AI技术的多线程数据检索方法,其特征在于,所述方法包括下述步骤:对于文件数据进行预处理,基于文件丰度以及文件关联强度形成表示文件关系的连通树;对所录入的检索信息进行特征提取和/或语义分析;为当前检索分配第一组线程,用于基于通过特征提取获得的关键词和/或语义分析结果从连通树根文件中按照根等级的从高到低进行目标文件检索;对基于关键词和/或语义分析检索到的文件进行录入信息与文件之间的相关度计算,并返回所检索到的相关度高于目标阈值的检索基础文件;为当前检索分配第二组线程,第二组线程基于连通树确定所述检索基础文件所属的各个上级根文件以及并列根文件;对各个根文件与所输入的语义信息进行相关度计算,确定与所输入语义信息相关度最高的若干相关根文件;将上述根文件的所有下级根文件以及叶文件均调入快速缓存,采用多个线程分别对所调入文件与所输入的语义信息进行相关度计算,输出相关度排名靠前的若干文件。2.根据权利要求1所述的基于AI技术的多线程数据检索方法,其特征在于,确定文件丰度的步骤包括:1.1、基于现有各类文献进行关键词提取,获取每类文献所包含的关键词子库,汇总各类关键词子库中的关键词形成关键词库,建立关键词库中各个关键词与文献类别之间的映射关系;1.2、对于文件库中的目标文件提取其文件内容中的关键词,确定每个关键词的出现频次以及所属类别;1.3、基于各个关键词的出现频次,对关键词数量进行频次分级,形成不同的频次等级;1.4、基于关键词类别权重以及关键词的频次等级,计算文件丰度:其中,C
i
表示文件中所包含的第i个关键词的类别权重,H
i
表示该关键词的频次等级。3.根据权利要求2所述的基于AI技术的多线程数据检索方法,其特征在于,基于文件丰度以及引用文件数和被引用次数确定文件的关联强度Co=a1R+a2Cit+a3Rec其中,a1、a2、a3分别为关联系数,Cit表示引用文件数,Rec表示被引用次数。4.根据权利要求2所述的基于AI技术的多线程数据检索方法,其特征在于,所述连通树通过下述方式构建:2.1、基于现有文件分类方式,对于每一类文件的子库,对各个文件按照...

【专利技术属性】
技术研发人员:耿德强武伟李杨刘洋
申请(专利权)人:六棱镜杭州科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1