一种基于地学专家知识的网页地学相关性计算方法技术

技术编号:25757167 阅读:25 留言:0更新日期:2020-09-25 21:06
本发明专利技术公开了一种基于地学专家知识的网页地学相关性计算方法,包括以下步骤:1、利用发现算法获取网页数据;2、数据预处理;3、计算网页数据与关键词集合的相关度;4、引入关键词集合频率向量;5、形成网页数据‑关键词权值矩阵。本发明专利技术的优点是:可依据客观的专家叙词表知识树代替用户进行相关词的选取以及相关性量化,解决了传统相关性计算方法的局限性问题,同时专家团队总结的知识结构树可以有效避免在普通研究者人工寻找关键词进行相关性计算时可能出现的对部分关键词的遗漏。

【技术实现步骤摘要】
一种基于地学专家知识的网页地学相关性计算方法
本专利技术涉及地学数据计算
,特别涉及一种基于地学专家知识的网页地学相关性计算方法。
技术介绍
近年来,以大数据为首的互联网技术是当前信息化领域的重要内容和技术手段,各行业都在积极研究大数据在该领域的应用。同样,地质行业的发展也需要大数据等相关信息技术的支持与应用。大数据时代的到来就是要改变以“经验”为主的传统思维方式,“用数据说话、从数据中找答案、用数据决策与创新”是今后地质行业发展的主旋律(陈建平,李婧,崔宁,,等.大数据背景下地质云的构建与应用.地质通报,2015,34(7):1260-1265)。如何充分利用已有的地质文本大数据,在海量的数据中及时、全面的获取所需地质信息,分析、挖掘出数据之中潜在知识与价值,也就是进行大数据挖掘工作,是当今地质大数据应用的重要任务。根据地质领域数据管理、存储与产权等方面,可将地质数据其分为三类,即核心数据、邻域数据和公共数据(李婧,陈建平,王翔.地质大数据存储技术.地质通报,2015,34(8):1589-1594)。地质公共数据是指互联网上各种与地质相关的数据资源,如各类地质领域相关门户网站发布的地质新闻、找矿成果、地调信息以及各类学术网站的地质文献资源等。随着云计算、人工智能、深度学习等信息技术的飞速发展,大数据的研究与应用在各领域取得突破。在大数据理念下,提高了“数据”资源的利用水平,消除了数据“孤岛”,获得了大量的成果,给地质行业带来了前所未有的机遇。由于互联网、移动网络技术的发展,每天发布的新闻、微博、图片等各种格式的数据呈爆炸式增长,数据产生、存储、更新的速度越来越快,用户基于专题定制的个性化需求越来越突出,特别是在地质领域还没有具备地质主题功能的爬虫系统,无法实现在互联网上采集与精选所需的地质数据。面对已有的海量数据,需要从广泛的数据海洋中精选到有价值的地质文本数据,才能进行精确的信息提取与知识挖掘。地质数据广泛的存在于广域网与局域网中,实现地质大数据的快速发现、定位和精选,必须要克服地质文本数据资源的多源性、海量性、复杂性和非结构化等特点。对于广域网地质数据,传统的搜索引擎方式难以高效、全面的查询、采集到关心的地质数据。现有技术(如赵冰漫,王卫亚.基于相关性分析的网页学术性算法研究[J].电子测试,2018,(22):70-71.)利用词频判断相关性:通过输入关键词在网页中出现的次数进行网页与搜索目标的相关性排序。但是在科研实践中,研究者面对未知学科领域时在未接受系统培训的情况下往往不能轻易获取专业词汇之间的相关性,利用词频判断相关性的方法具有局限性,不能客观反映实际情况。本专利技术所用到的缩略语和关键术语定义大数据挖掘:是从大数据中统计、分析、提取出潜在的信息知识,并将这些知识构建成具有智能化、关联化知识库,实现知识检索与计算。专家知识结构树:专家团队提供的包含专业词汇及词汇间相关关系信息的树状图。地质叙词表:叙词表亦称主题词表、检索词典,是用于标引、存储和检索文献的词典,是叙词法的具体体现。叙词表是将标引者和检索者使用的自然语言转换成规范化的叙词型主题检索语言的术语控制工具。根据地学专家知识节点构建的地质叙词表:将专家团队提供的知识结构树根据上位类术语(BT)、优选术语(PT)、异性术语(VT)、相关术语(RT)、下位术语(NT)的词汇关系,构建包含上位词、下位词、相关词、族首词及同义词的地质叙词表。逻辑结构树计算:通过计算机编程,将地质叙词表中各个序词根据规定词汇关系存成树状结构。将需搜索的关键词关键词与生成的逻辑结构树进行比对,将其在树中的相关词作为拓展检索词进行传统检索,用户可以从中获取不含关键词但与关键词密切相关的各类地学数据。
技术实现思路
本专利技术针对现有技术的缺陷,提供了一种基于地学专家知识的网页地学相关性计算方法,解决了现有技术中存在的缺陷。为了实现以上专利技术目的,本专利技术采取的技术方案如下:一种基于地学专家知识的网页地学相关性计算方法,包括以下步骤:S1:网页数据提取;S11:确认地质叙词表中获取的与检索主题的关联关键词,S12:利用搜索引擎提供的API进行网页检索,S13:获取网页链接的URLs;S14:依以下步骤进行地质主题相关性判断计算网页数据与地质主题词的相关度:将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因素时,网页数据Dj对地质主题词集合的相关度计算公式为引入关键词集合频率向量:从叙词表中获取带有权重的地质主题词集合ki(i=1,2,…m)网页文档Cj的相关度计算公式为:RELD=Atitle*Wt+Bcontent*WtAtitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量W(W1,W2,…Wm):关键词组成权重向量形成网页数据-地质主题词权值矩阵:通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈值,实现对网页主题的相关性判断,形成网页数据-地质主题词权值矩阵:Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性。W(W1,W2,…Wm):地质主题词组成权重向量,优选术语、异形术语取值为1;上位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5。Q与W的取值可以根据实际采集数据量的需求情况调整。S15:确定权重阈值:根据实际应用需求确定,当相关性超过阈值地网页数量过多时适当调高阈值,过少时适当调低阈值;S16:利用python中的beautifulsoup库进行网页数据爬取。S2:数据预处理,将发现算法采集到的网页数据进行清洗;S21:重复性检查主要是针对名称、大小信息进行检测,去除相同的文件;S22:内容以及质量检查,通过人工确认的方式实现,确保最终上传的数据满足要求,最终得到用于计算相关性的内容包括:标题、摘要和链接地址。S3:计算网页数据与关键词集合的相关度;将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因素时,网页数据Dj对关键词集合的相关度计算公式为k:从将专家知识结构树整理成的地质叙词表中获取的与检索主题的关联关键词在文档Di中的序号m:地质叙词表中与检索主题相关词的数量dkj:序号k对应关键词出现在文档Dj中的次数S4:引入关键词集合频率向量;从叙词表中获取带有权重的关键词集合ki(i=1,2,…m)网页文档Cj的相关度计算公式为:...

【技术保护点】
1.一种基于地学专家知识的网页地学相关性计算方法,其特征在于,包括以下步骤:/nS1:网页数据提取;/nS11:确认地质叙词表中获取的与检索主题的关联关键词,/nS12:利用搜索引擎提供的API进行网页检索,/nS13:获取网页链接的URLs;/nS14:依以下步骤进行地质主题相关性判断/n计算网页数据与地质主题词的相关度:/n将具有知识层次结构关系的关键词集合看作一个文档D

【技术特征摘要】
1.一种基于地学专家知识的网页地学相关性计算方法,其特征在于,包括以下步骤:
S1:网页数据提取;
S11:确认地质叙词表中获取的与检索主题的关联关键词,
S12:利用搜索引擎提供的API进行网页检索,
S13:获取网页链接的URLs;
S14:依以下步骤进行地质主题相关性判断
计算网页数据与地质主题词的相关度:
将具有知识层次结构关系的关键词集合看作一个文档Di,当不考虑权重等因素时,网页数据Dj对地质主题词集合的相关度计算公式为



引入关键词集合频率向量:
从叙词表中获取带有权重的地质主题词集合ki(i=1,2,…m)网页文档Cj的相关度计算公式为:
RELD=Atitle*Wt+Bcontent*Wt
Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量
W(W1,W2,…Wm):关键词组成权重向量
形成网页数据-地质主题词权值矩阵:
通过计算每个网页数据的关键词权值总和,并根据实际应用需求确定权值阈值,实现对网页主题的相关性判断,形成网页数据-地质主题词权值矩阵:



Atitle(Aj1,Aj2…Ajm):ki在网页Dj数据标题中出现的次数构成的向量
Bcontent(Bj1,Bj2…Bjm):地质主题词ki在文档Cj中出现的次数构成的向量
Q:位置调节参数,关键词在标题中出现比在摘要中出现更具有相关性;
W(W1,W2,…Wm):地质主题词组成权重向量,优选术语、异形术语取值为1;上位类术语取值为0.5;下位类术语取值为0.8;相关术语取值为0.5;
Q与W的取值可以根据实际采集数据量的需求情况调整;
S15:确定权重阈值:根据实际应用需求确定,当相关性超过阈值地网页数量过多时适当调高阈值,过少时适当调低阈值;
S16:利用python...

【专利技术属性】
技术研发人员:李诗陈建平李志斌刘苏庆张亚光
申请(专利权)人:中国地质大学北京
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1