The invention discloses a cyber source search training system, the system of collection and classification of key information, and the approximate degree of each key information and set in their respective contribution ratio were simulated and optimized weight values to get the key information as a basis for normalization of training generated key information and, as the training after the search for searching more accuracy of target resources. The invention takes into account the key information similarity degree and the weight ratio, and simulates the mathematical formula to obtain more accurate target resources.
【技术实现步骤摘要】
一种网络资源搜索训练系统
本专利技术主要涉及网络数据检索与抓取系统。
技术介绍
随着互联网的快速发展,互联网上的数据资源呈几何数字上升,对于特定信息的目标资源的检索,效率越来越低,而且检索得到的资源与目标资源的相近度无法确定,另外不同数据平台下的检索结果出现不一致情况,检索机制的不同造成实际结果与真实结果的差值无法缩小,进而造成搜索引擎的效率降低,成本高,而且无法匹配实时在变动的互联网海量资源。
技术实现思路
针对上述现有存在的问题和不足,本专利技术提供了一种网络资源搜索训练系统,网络资源中的目标资源检索效率更高,且具有自我更新特征关键信息权重值,从而提高了搜索精准度和效率。
技术实现思路
:为解决上述技术问题,本专利技术所采用的技术手段为:一种网络资源搜索训练系统,包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索 ...
【技术保护点】
一种网络资源搜索训练系统,其特征在于:包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对其进行归一化处理;继续使用特征关键信息作为检索依据进行再次检索得到目标资源;所述信息内容解析模块中关键信息的权重通过公式(1)计算得到:
【技术特征摘要】
1.一种网络资源搜索训练系统,其特征在于:包括信息采集模块,信息内容解析与分类模块,检索抓取模块和训练模块,其中:所述信息采集模块,收集并提取用户待检索资源关键信息,并根据关键信息生成关联信息,并将该关联信息与用户进行交互并记录修改信息,同时对关键信息和关联信息进行权重排序和确定,确定后的特定检索信息发送至检索抓取模块;所述检索抓取模块,从网络上抓取包含关键信息或关联系信息的网页信息,并将数据发送至信息内容解析模块;所述信息内容解析模块,首先对信息内容进行分类,然后计算抓取后的网页信息中关键信息的相近度和出现频率,并根据相近度和出现频率计算各关键信息的在关键信息类别集合中的贡献比值;所述训练模块,提取信息内容解析模块计算的各关键信息的权重,并按照权重大小的顺序选取部分关键信息作为特征关键信息,并对...
【专利技术属性】
技术研发人员:李文华,
申请(专利权)人:江苏德胜智业信息技术有限公司,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。