一种行业数据源侦测方法技术

技术编号:10989735 阅读:69 留言:0更新日期:2015-02-04 08:35
本发明专利技术提出了一种行业数据源侦测方法,通过建立行业本体库,根据相似度语义分析,逆向搜索数据源网页,具体包括以下步骤:建立数据源库,用于存储数据源链接;集合行业基本用语,建立行业本体库;针对每一条基本用语,集合与其语义相似度大于A的关联语建立关联语库,0<A<1;通过网页探针获取包含基本用语或关联语的网页链接;从获取的网页链接中筛选可用网页链接添加到数据源库。本发明专利技术提出的一种行业数据源侦测方法,有利于实时掌握行业信息,判断行业动态。

【技术实现步骤摘要】
-种行业数据源侦测方法
本专利技术涉及信息收集
,尤其涉及。
技术介绍
随着信息化程度不断加深,企业对大数据分析服务的渴求也日益强烈;互联 网持续增长信息资源蕴含了巨量的具有商业价值的信息,成为重要的商业智能服务信息源 头。但是,作为大数据的主要载体的互联网,由于数据量鹿大、获取难度大、单位价值相对 低、几乎全是文本等非结构数据等难点,其价值并没有被业界充分开发和利用。 随着互联网的发展,个人和企业获得的信息越来越多,但互联网数据价值密度相 对较低,面对如此纷繁复杂的信息,如果没有有效的源头探测、质量判断机制,用户往往无 法从中提取出真正有效的信息,无法实现有效利用。
技术实现思路
基于
技术介绍
存在的技术问题,本专利技术提出了,有利于 实时掌握行业信息,判断行业动态。 本专利技术提出的,通过建立行业本体库,根据相似度语义 分析,逆向搜索数据源网页,具体包括W下步骤: 建立数据源库,用于存储数据源链接; 集合行业基本用语,建立行业本体库; 针对每一条基本用语,集合与其语义相似度大于A的关联语建立关联语库,0 < A < 1 ; 通过网页探针获取包含基本用语或关联语的网页链接; 从获取的网页链接中筛选可用网页链接添加到数据源库。 优选地,关联语库中各关联语根据关联程度与基本用语形成W基本用语为根节点 的语义树,语义相似度根据语义树中关联语与基本用语之间的距离进行计算。 优选地,语义相似度计算方法为,

【技术保护点】
一种行业数据源侦测方法,其特征在于,通过建立行业本体库,根据相似度语义分析,逆向搜索数据源网页,具体包括以下步骤:建立数据源库,用于存储数据源链接;集合行业基本用语,建立行业本体库;针对每一条基本用语,集合与其语义相似度大于A的关联语建立关联语库,0<A<1;通过网页探针获取包含基本用语或关联语的网页链接;从获取的网页链接中筛选可用网页链接添加到数据源库。

【技术特征摘要】
1. 一种行业数据源侦测方法,其特征在于,通过建立行业本体库,根据相似度语义分 析,逆向搜索数据源网页,具体包括以下步骤: 建立数据源库,用于存储数据源链接; 集合行业基本用语,建立行业本体库; 针对每一条基本用语,集合与其语义相似度大于A的关联语建立关联语库,O < A < 1 ; 通过网页探针获取包含基本用语或关联语的网页链接; 从获取的网页链接中筛选可用网页链接添加到数据源库。2. 如权利要求1所述的行业数据源侦测方法,其特征在于,关联语库中各关联语根据 关联程度与基本用语形成以基本用语为根节点的语义树,语义相似度根据语义树中关联语 与基本用语之间的距离进行计算。3. 如权利要求2所述的行业数据源侦测方法,其特征在于,语义相似度计算方法为,WO表示基本用语,Wl表示作为计算对象的关联语,Dis (Wtl, W1)为WO、Wl在语义树上的 距离,a为可调节的计算常数。4. 如权利要求1所述的行业数据源侦测方法,其特征在于,A = 0. 6。5. 如权利要求1所述的行业数据源侦...

【专利技术属性】
技术研发人员:贾岩
申请(专利权)人:安徽华贞信息科技有限公司
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1