一种基于大数据自动推荐的搜索系统技术方案

技术编号:39722414 阅读:9 留言:0更新日期:2023-12-17 23:28
本发明专利技术公开了一种基于大数据自动推荐的搜索系统,包括输入模块,所述输入模块以输入并接收限制搜索请求,并将接收到的搜索请求通过搜索模块进行搜索,同时输入模块接收的搜索请求包括语音

【技术实现步骤摘要】
一种基于大数据自动推荐的搜索系统


[0001]本专利技术涉及搜索系统
,具体为一种基于大数据自动推荐的搜索系统


技术介绍

[0002]搜索系统是根据对信息资源中不同对象和层次揭示上的需要,文献目录

索引

机读数据库

网络搜索引擎等信息资源搜索工具构成的以不同检索需要为目标的

形式多样的

完备的系统,其能够分类出需要的信息,然而,正由于计算机网络中数据量非常庞大,通过搜索引擎搜索获得的满足条件的搜索结果通常也是非常多,有时甚至多达数百万,经检索,发现现有技术中的搜索系统典型的如公开号
CN108604241A
一种搜索系统配备有在线社交网络系统

当所述在线社交网络系统的用户请求搜索时,所述搜索系统检查表示所述在线社交网络系统中的所述用户的成员简档,并从所述成员简档导出待连同用户供应的搜索项一起包含到所述搜索请求中的额外项

其主要特点是通过将“与”算子应用于用户供应的项并将经加权“或”算子应用于从所述成员简档导出的所述额外项来处理所得查询

使通过执行所述查询获得的搜索结果对进行请求的用户可用

[0003]综上所述,现有的基于大数据的搜索系统在使用时通过会根据使用者的习惯向其推荐其感兴趣的内容,从而使得搜索内容相关的内容相对减少,进而则需要进行二次检索,进而使得检索效率较低,针对上述问题,需要对现有设备进行改进<br/>。

技术实现思路

[0004]本专利技术的目的在于提供一种基于大数据自动推荐的搜索系统,以解决上述
技术介绍
中提出的现有的基于大数据的搜索系统在使用时通过会根据使用者的习惯向其推荐其感兴趣的内容,从而使得搜索内容相关的内容相对减少,进而则需要进行二次检索,进而使得检索效率较低的问题

[0005]为实现上述目的,本专利技术提供如下技术方案:一种基于大数据自动推荐的搜索系统,包括:
[0006]输入模块,所述输入模块以输入并接收限制搜索请求,并将接收到的搜索请求通过搜索模块进行搜索,同时输入模块接收的搜索请求包括语音

文字以及图片;
[0007]处理模块,所述处理模块用于对搜索模块搜索到的信息进行处理分离以及归纳整合,同时处理模块可根据系统设定有选择的选用提取模块输入的相关信息;
[0008]采集模块,所述采集模块接入互联网,且采集模块用于对使用者在大数据中留下的浏览痕迹以及爱好进行采集,并将采集的信息存储至数据库的内部,同时数据库内部存储的信息作为提取模块的提取源

[0009]优选的,所述输入模块具有语音识别功能以及图片识别功能,即将语音转化为文字作为搜索目的,同时识别图片得到的内容与采集模块采集的信息不存在互通关系

[0010]优选的,所述处理模块的分类整合公式为:
[0011][0012]其中,其中
P(Y|X)
是事件
Y
的概率,假设
X
已经发生,
P(X)
是事件
X
的概率,
P(Y)
是事件
Y
的概率,
P(X|Y)
是给定
Y
的固定值时事件
X
的可能性,同时
X
代表一个特征变量,
Y
代表一个目标变量

[0013]优选的,所述处理模块的即的整合逻辑为:根据可能与事件相关的关联度来评估事件所被需要的概率

[0014]优选的,所述处理模块中若存在特征变量时,处理模块的分类整合公式可变形为:
[0015][0016]其中,
X1

X2
相互独立

[0017]优选的,所述采集模块的采集方式是利用爬虫对使用者在各大论坛

百度贴吧

微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库的内部

[0018]优选的,所述数据库内存储的信息将结合与搜索内容的关联度

产生时间以及使用者参与度进行加权,从而采用权重优先展示的方式

[0019]优选的,所述提取模块采用关键词提取算法对数据库内存储的信息进行提取,并将提取的关键内容输入至处理模块处

[0020]优选的,所述提取模块的提取算法公式为;
[0021][0022]其中,
In(Vi)
是指向
Vi
的节点,
|Out(Vj)|
是节点
j
的出度,
d
为阻尼系数,
d
代表着用户在某一页面继续点击浏览的概率,1‑
d
就是随机跳到新
URL
的概率,同时有些网页不存在跳出的链接,那么
d
就是0,使用1‑
d
作为平滑项可以保证马尔科夫链的平稳分布

[0023]一种基于大数据自动推荐的搜索系统的使用方法包括以下步骤:
[0024]S1
:通过输入模块键入搜索内容,内容输入之后搜索模块将对相关内容进行检索,同时接入互联网的采集模块将对使用者在各大论坛

百度贴吧

微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库的内部;
[0025]S2
:数据库内部的分类模块将对其进行分类存储,同时数据库内部的更新模块将根据时间实时对各类相关数据更新覆盖,同时数据库内部的生成模块将基于分类模块和更新模块生成偏好数据;
[0026]S3
:提取模块将对数据库内部的生成偏好数据中的关键词进行提取,接着处理模块将提取的信息和搜索模块搜索的相关的信息一同通过输出模块输出至显示模块,使用者通过显示模块展示的内容对搜索的结果进行获取;
[0027]S4
:当需要搜索的内容是为达到非娱乐的目的时可勾选输入模块一侧的专业版选项,从而即可使处理模块忽略提取模块输入的与检索内容无关的数据,使得显示模块展示的内容更为全面

[0028]与现有技术相比,本专利技术的有益效果是:该基于大数据自动推荐的搜索系统,
[0029]本专利技术通过处理模块

采集模块和显示模块的配合使用可有效解决现有的基于大
数据的搜索系统在使用时通过会根据使用者的习惯向其推荐其感兴趣的内容,从而使得搜索内容相关的内容相对减少,进而则需要进行二次检索,进而使得检索效率较低的问题,工作人员可在搜索时有选择性的设置处理模块的处理范围,即当其需要搜索的内容是为达到非娱乐的目的时可勾选输入模块一侧的专业版选项,此选项可使得处理模块在处理检测所内容时去除采集模块基于大本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于大数据自动推荐的搜索系统,其特征在于,包括:输入模块
(1)
,所述输入模块
(1)
以输入并接收限制搜索请求,并将接收到的搜索请求通过搜索模块
(2)
进行搜索,同时输入模块
(1)
接收的搜索请求包括语音

文字以及图片;处理模块
(3)
,所述处理模块
(3)
用于对搜索模块
(2)
搜索到的信息进行处理分离以及归纳整合,同时处理模块
(3)
可根据系统设定有选择的选用提取模块
(8)
输入的相关信息;采集模块
(6)
,所述采集模块
(6)
接入互联网,且采集模块
(6)
用于对使用者在大数据中留下的浏览痕迹以及爱好进行采集,并将采集的信息存储至数据库
(7)
的内部,同时数据库
(7)
内部存储的信息作为提取模块
(8)
的提取源
。2.
根据权利要求1所述的一种基于大数据自动推荐的搜索系统,其特征在于:所述输入模块
(1)
具有语音识别功能以及图片识别功能,即将语音转化为文字作为搜索目的,同时识别图片得到的内容与采集模块
(6)
采集的信息不存在互通关系
。3.
根据权利要求1所述的一种基于大数据自动推荐的搜索系统,其特征在于:所述处理模块
(3)
的分类整合公式为:其中,其中
P(Y|X)
是事件
Y
的概率,假设
X
已经发生,
P(X)
是事件
X
的概率,
P(Y)
是事件
Y
的概率,
P(X|Y)
是给定
Y
的固定值时事件
X
的可能性,同时
X
代表一个特征变量,
Y
代表一个目标变量
。4.
根据权利要求1所述的一种基于大数据自动推荐的搜索系统,其特征在于:所述处理模块
(3)
的即的整合逻辑为:根据可能与事件相关的关联度来评估事件所被需要的概率
。5.
根据权利要求1所述的一种基于大数据自动推荐的搜索系统,其特征在于:所述处理模块
(3)
中若存在特征变量时,处理模块
(3)
的分类整合公式可变形为:其中,
X1

X2
相互独立
。6.
根据权利要求1所述的一种基于大数据自动推荐的搜索系统,其特征在于:所述采集模块
(6)
的采集方式是利用爬虫对使用者在各大论坛

百度贴吧

微博等留下的浏览信息以及互动信息进行爬取,并将爬取的信息存储至数据库
(7)
的内部
。7.

【专利技术属性】
技术研发人员:李海唐丽霞张伟龙
申请(专利权)人:深圳市双银科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1