一种网络资源搜索训练系统技术方案

技术编号:16365546 阅读:34 留言:0更新日期:2017-10-10 21:35
本发明专利技术公开了种网络资源搜索训练系统,本系统对关键信息进行集合化和分类处理,并对各关键信息的近似度和在各自集合下的贡献比值进行优化模拟,得到关键信息的权重值从而以此为依据进行归一化处理进行训练生成得到特征关键信息,并作为训练后的搜索依据进行检索得到精确度更高的目标资源。本发明专利技术考虑了关键信息相近度和权重比值,经过数学公式进行模拟得到更精准的目标资源。

Network resource search training system

The invention discloses a cyber source search training system, the system of collection and classification of key information, and the approximate degree of each key information and set in their respective contribution ratio were simulated and optimized weight values to get the key information as a basis for normalization of training generated key information and, as the training after the search for searching more accuracy of target resources. The invention takes into account the key information similarity degree and the weight ratio, and simulates the mathematical formula to obtain more accurate target resources.

【技术实现步骤摘要】
一种网络资源搜索训练系统
本专利技术主要涉及网络数据检索与抓取系统。
技术介绍
随着互联网的快速发展,互联网上的数据资源呈几何数字上升,对于特定信息的目标资源的检索,效率越来越低,而且检索得到的资源与目标资源的相近度无法确定,另外不同数据平台下的检索结果出现不一致情况,检索机制的不同造成实际结果与真实结果的差值无法缩小,进而造成搜索引擎的效率降低,成本高,而且无法匹配实时在变动的互联网海量资源。
技术实现思路
针对上述现有存在的问题和不足,本专利技术提供了一种网络资源搜索训练系统,网络资源中的目标资源检索效率更高,且具有自我更新特征关键信息权重值,从而提高了搜索精准度和效率。
技术实现思路
:为解决上述技术问题,本专利技术所采用的技术手段为:一种网络资源搜索训练系统,包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:w(t,i)为特征关键信息t在关键信息类别i中的权值,TF(t,i)表示特征关键信息在关键信息类别i中的频次,Cs为所有关键信息类别集合,t为信息类别的序号,i为当前信息类别下的关键信息的序号,F(i)表示特征关键信息t在该关键信息类别i中出现的频次,F(Cs)表示特征关键信息t在所有标记块中出现的总次数,n表示信息类别的总个数。本专利技术对关键信息进行集合化和分类处理,并对各关键信息的近似度和在各自集合下的贡献比值进行优化模拟,得到关键信息的权重值从而以此为依据进行归一化处理进行训练生成得到特征关键信息,并作为训练后的搜索依据进行检索得到精确度更高的目标资源。本专利技术考虑了关键信息相近度和权重比值,经过数学公式进行模拟得到更精准的目标资源。附图说明图1为本专利技术所述系统的逻辑流程图。具体实施方式下面结合附图和具体实施例对本
技术实现思路
作进一步说明。如图1所示,本专利技术的网络资源搜索训练系统,主要包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块。对于互联网上海量的数据资源内容,本系统对资源内容的类型进行了划分,可以以文字、视频、音频、图像、字段字符,或以内容生成格式为依据进行划分。使用者在确定需要搜索的目标关键信息后,本系统提取该关键信息内容并与系统的资源内容的比对形成一定规则下的关键信息集合,同时对相关联的信息进行修正并与使用者进行交互确认,确定后的关键信息,由本系统抓取模块在网络上进行网页信息的检索和抓取,抓取得到的数据送至信息内容解析模块进行处理。信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:w(t,i)为特征关键信息t在关键信息类别i中的权值,TF(t,i)表示特征关键信息在关键信息类别i中的频次,Cs为所有关键信息类别集合,t为信息类别的序号,i为当前信息类别下的关键信息的序号,F(i)表示特征关键信息t在该关键信息类别i中出现的频次,F(Cs)表示特征关键信息t在所有标记块中出现的总次数,n表示信息类别的总个数。本文档来自技高网
...
一种网络资源搜索训练系统

【技术保护点】
一种网络资源搜索训练系统,其特征在于:包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:

【技术特征摘要】
1.一种网络资源搜索训练系统,其特征在于:包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对...

【专利技术属性】
技术研发人员:李文华
申请(专利权)人:江苏德胜智业信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1