一种基于大数据的信息检索系统技术方案

技术编号:31505781 阅读:67 留言:0更新日期:2021-12-22 23:36
本发明专利技术公开了一种基于大数据的信息检索系统,属于信息检索技术领域,解决了提取出的文献相似度较低,无法达到较高匹配度,便导致提取出的文献与用户的信息匹配度较低,用户无法得到一个较好的检索体验的问题,通过领域分区终端和关键词分区终端对检索数据进行多重划分,先将对应的数据划分不同的领域,经过多重划分,可使匹配度更高,避免匹配到其他领域内部的文献,同时便于数据与对应的文献库快速匹配,初步提升匹配度,再将关键词分区库内部数据采用同样的方式进行计算,随后将计算后的数值进行比对求差,得出匹配度最高的文献数据,供外部人员进行查看,使检索后的文献与外部人员的需求匹配度更高,从而使外部人员达到较好的检索效果。较好的检索效果。较好的检索效果。

【技术实现步骤摘要】
一种基于大数据的信息检索系统


[0001]本专利技术属于信息检索
,具体是一种基于大数据的信息检索系统。

技术介绍

[0002]大数据,或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。
[0003]针对大数据信息检索过程中,现有的检索系统只是单纯的对关键词进行匹配,再通过数值匹配提取到相似文献,此种方式所提取出的文献相似度较低,无法达到较高匹配度,便导致提取出的文献与用户的信息匹配度较低,用户无法得到一个较好的检索体验。

技术实现思路

[0004]为了解决上述方案存在的问题,本专利技术提供了一种基于大数据的信息检索系统。
[0005]本专利技术的目的可以通过以下技术方案实现:该基于大数据的信息检索系统,包括输入端、分区端和处理端;
[0006]输入端用于信息数据,分区端用于对数据库进行多重分区,处理端用于将所输入的数据信息进行处理匹配,得出匹配度最高的文献;
[0007]输入端包括输入终端、关本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的信息检索系统,其特征在于,包括输入端、分区端和处理端;输入端用于输入信息数据,分区端用于对数据库进行多重分区,处理端用于将所输入的数据信息进行处理匹配,得出匹配度最高的文献;输入端包括输入终端、关键词提取模块以及领域分析比对模块,分区端包括检索数据库、领域分区终端以及关键词分区终端,处理端包括关键词分区比对模块、数值处理模块、文献提取模块以及阈值模块;数值处理模块内部包括提取单元、数值计算单元、求差单元和比对单元,提取单元对检索信息内部的符号、语气助词以及表情进行提取,数值计算单元对检索信息内部的符号、语气助词以及表情出现的次数进行归纳计算,求差单元对计算后的数值进行求差工作,比对单元可对求差后的数值与阈值模块内部区间值进行比对。2.根据权利要求1所述的一种基于大数据的信息检索系统,其特征在于,所述数值处理模块对检索信息的处理步骤如下:S1、对检索信息内部的符号、语气助词以及表情进行提取,并将检索信息符号、语气助词和表情出现的次数进行依次记录,将检索信息符号出现次数记为F、语气助词出现次数记为Y和表情出现次数记为B;S2、采用计算公式J=F
×
C1+Y
×
C2+B
×
C3计算得出检索信息比对值J;S3、对关键词分区库内部的文献采用同样的方式计算得出比对值Ji,其中i代表不同的文献数据,文献数据存储于检索数据库内,再通过求差单元计算J与Ji之间的差值,再对差值进行绝对值处理;S4、再将计算得出的差值与阈值模块内部区间值进行比对,将属于阈值区间内部的差值进行提取标记,再将所标...

【专利技术属性】
技术研发人员:王跃
申请(专利权)人:安徽电信规划设计有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1