【技术实现步骤摘要】
知识库构建方法、装置和知识搜索方法、系统
本专利技术涉及计算机领域,尤其涉及一种知识库构建方法、装置和知识搜索方法、系统。
技术介绍
随着全球气候变化及环境破坏,各类自然灾害发生事件也不断增多,对国家和人民生命财产安全造成的威胁日益突出,而目前绝大部分高校科研机构行业内缺乏一个针对自然灾害领域的搜索引擎或专家知识库管理系统,对研究人员快速的了解近期灾情动态和分析灾情数据造成不便。而建立自然灾害领域的搜索引擎或专家知识库管理系统,需要建立在丰富且真实可靠的历史灾害数据积累之上,对数据的提取属于大数据的数据结构化技术范畴,大数据挖掘领域中,数据结构化是最关键的一步。由于互联网技术的飞速发展,在信息爆炸的网络中产生了大量的数据,其中绝大部分数据都是以文本等非结构或半结构的方式存储,所以挖掘大数据首先就是要系统地研究如何挖掘无结构的文本数据。网络爬虫是一个自动提取网页的程序,为搜索引擎从互联网上下载网页,是搜索引擎的重要组成部分。在对互联网上数据进行爬取、预处理、提取解析等过程后,Web文档会以文本数据存在,为了对文本数据中 ...
【技术保护点】
1.一种自然灾害领域知识库构建方法,其特征在于,包括:/n构建自然灾害领域的基础数据库;/n获取灾害文本数据;/n采用类机器学习方法从所述灾害文本数据中提取结构化灾害数据;/n按照预设分类对所述结构化灾害数据进行分类处理,得到灾害分类处理结果;/n采用数据分析算法对所述结构化灾害数据进行挖掘分析,得到灾害挖掘分析结果;/n整合与自然灾害相关的监测系统,从所述检测系统中提取自然灾害监测数据;/n基于所述灾害文本数据、所述结构化灾害数据、所述灾害分类处理结果、所述灾害挖掘分析结果以及所述监测数据对所述基础数据库进行扩展,形成自然灾害领域知识库。/n
【技术特征摘要】
1.一种自然灾害领域知识库构建方法,其特征在于,包括:
构建自然灾害领域的基础数据库;
获取灾害文本数据;
采用类机器学习方法从所述灾害文本数据中提取结构化灾害数据;
按照预设分类对所述结构化灾害数据进行分类处理,得到灾害分类处理结果;
采用数据分析算法对所述结构化灾害数据进行挖掘分析,得到灾害挖掘分析结果;
整合与自然灾害相关的监测系统,从所述检测系统中提取自然灾害监测数据;
基于所述灾害文本数据、所述结构化灾害数据、所述灾害分类处理结果、所述灾害挖掘分析结果以及所述监测数据对所述基础数据库进行扩展,形成自然灾害领域知识库。
2.根据权利要求1所述的方法,其特征在于,所述获取灾害文本数据包括:
确定预设灾害关键字;
采用分布式爬虫技术和/或增量式爬虫技术从目标网站中获取与所述预设灾害关键字相匹配的原始文本数据;
对所述原始文本数据进行预处理,得到灾害文本数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始文本数据进行预处理,得到灾害文本数据包括:
对所述原始文本数据进行文本内容抽取、数据清洗和去重、翻译、语义识别以及词性识别,得到灾害文本数据。
4.根据权利要求1或2所述的方法,其特征在于,所述采用类机器学习方法从所述灾害文本数据中提取结构化灾害数据包括:
获取所述灾害文本数据的关键字;
确定所述灾害文本数据的标签;
根据所述关键字和所述标签,从结构化规则库中获取结构化规则;
根据所述结构化规则从所述灾害文本数据中提取结构化灾害数据。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从自定义的样本数据中自动提取结构化规则,将所述结构化规则保存在所述结构化规则库中。
6.根据权利要求1所述的方法,其特征在于,所述整合与自然灾害相关的监测系统包括:
整合台风监测系统。
7.一种自然灾害领域知识搜索方法,其特征在于,包括:
根据用...
【专利技术属性】
技术研发人员:何原荣,陈秋瑾,苏群,冷鹏,何婷婷,
申请(专利权)人:厦门理工学院,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。