一种基于文本图像融合识别的网页知识抽取方法技术

技术编号：20681273 阅读：27 留言：0更新日期：2019-03-27 18:59

本发明专利技术提供一种基于文本图像融合识别的网页知识抽取方法，涉及知识抽取、图像识别、文本分析和深度学习技术领域，将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度，利用文本分析方法基于语料库实现语义结构化，提取海量网页的价值数据关键字，同时将爬取网页转换成图片，提取结构化业务知识数据，对比分析两种方法提取的知识，不断学习训练出自动抽取模型，同时将确定的业务知识生成该网页的价值数据指纹，并加入到业务知识基础语料库中，持续更新自动抽取模型和基础语料库。保证了爬取数据准确性，提升爬取数据效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本图像融合识别的网页知识抽取方法
本专利技术涉及知识抽取、图像识别、文本分析和深度学习技术，尤其涉及一种基于文本图像融合识别的网页知识抽取方法。
技术介绍
近年来，人工智能技术发展迅速，其商业化速度超出预期，人工智能将会给整个社会带来颠覆性的变化，已经成为未来各国重要的发展战略。以深度学习为核心的算法演进，其超强的进化能力，在大数据的支持下，通过训练构建得到类似人脑结构的大规模卷积神经网络，已经可以解决各类问题。而云计算和大数据的发展，特别是海量数据的出现，从大数据中进行深度学习，打破传统方式，对各个领域产生颠覆性的变革。随着互联网的迅速发展，网络上聚集了海量信息，这些信息涉及各个领域，里面也隐藏着无数商机。例如政府公告的招投标信息，特别是企业涉足领域的信息，对企业而言有巨大的价值。如何在互联网中搜集到海量数据，并在海量数据中找到对于企业有价值的信息成为大家关注的焦点。网络爬虫作为万维网的数据采集手段已经被广泛的使用，通过网络爬虫可以在短时间内，按照一定的规则，在互联网上自动地抓取大量用户关注的网页。然而现实中通过网络爬虫抓取的网页是纯HTML代码，其内容格式不固定，并且有些是以非结构化图像方式展示，涉及到的领域会也有专用的术语，并且其分散在不同的网站，而各个网站的可信度也不同。例如在招投标领域，网站公布的招投标信息会以不同的形式公告出来，并且网站的展示格式也不同，而真正对企业客户有价值的是其中的知识点。在这种情况下，如何有效利用深度学习技术，结合文本分析和图像分析，综合考虑各类因素，针对海量领域网页抽取知识成为亟须解决的问题。
技术实现思路
为了解...

【技术保护点】
1.一种基于文本图像融合识别的网页知识抽取方法，其特征在于，将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度，利用文本分析方法基于语料库实现语义结构化，提取海量网页的价值数据关键字，同时将爬取网页转换成图片，提取结构化业务知识数据，对比分析两种方法提取的知识，不断学习训练出自动抽取模型，同时将确定的业务知识生成该网页的价值数据指纹，并加入到业务知识基础语料库中，持续更新自动抽取模型和基础语料库。

【技术特征摘要】
1.一种基于文本图像融合识别的网页知识抽取方法，其特征在于，将网络爬虫在互联网上爬取网页的网站进行分类评估并设定信任度，利用文本分析方法基于语料库实现语义结构化，提取海量网页的价值数据关键字，同时将爬取网页转换成图片，提取结构化业务知识数据，对比分析两种方法提取的知识，不断学习训练出自动抽取模型，同时将确定的业务知识生成该网页的价值数据指纹，并加入到业务知识基础语料库中，持续更新自动抽取模型和基础语料库。2.根据权利要求1所述的方法，其特征在于，云端聚集计算、网络、存储资源，对外提供网页知识抽取相关的云服务，利用云端的网站信用评估服务对爬取网站进行分类评估，优先选取信用值高的网站执行网络爬虫程序爬取感兴趣的网页，存储到云端；将存储的网页利用云端的文本分析服务，基于语料库进行文本分析，提取网页中感兴趣的价值数据，利用云端图像转换服务将网页转换成图片，再利用云端图像识别服务，抽取网页图片的结构化业务知识数据；通过数据结构化存储服务将网页中提取得到的价值数据，保存到云端存储中，并为其生成价值数据指纹；利用云端价值数据匹配服务基于大数据仓库进行数据匹配，结合知识抽取服务对比同一价值数据指纹的文本分析和图像分析得到的知识，训练自动抽取模型，并将抽取的知识加入到基础语料库。3.根据权利要求2所述的方法，其特征在于，所述的云端中心提供云基础设施，同时提供网页知识抽取相关的云服务，包括网络爬虫、知识抽取、文本分析、图像转换、图像识别、网站评价、语料库、数据结构化存储、价值数据匹配服务。4.根据权利要求3所述的方法，其特征在于，所述的网站信用评估服务对爬取网页的网站进行综合评估，充分考虑网站信用、数据准确性、数据时效性因素，得到目标爬取网站的信用值，为网络爬虫提供更好的服务；所述的网络爬虫服务包含对网页爬取任务的生成、执行、管理，根据网站评价值采用分布式任务分解方式抓取感兴趣的网页。5.根据权利要求4所述的方法，其特征在于，所述的文本分析服务将存储的网页基于语料库进行文本分析，提取网页中感兴趣的价值数据文本分析，获取业务知识数据。6.根据权利要求5所述的方法，其特征在于，所述的图像转换服务通过模拟浏览器展示，将网页转换成图像；所述的图像识别服务识别网页图片的内容，提取其中的结构化业务知识数据。7.根据权利要求6所述的方法，其特征在于，所述的数据结构...

【专利技术属性】
技术研发人员：孙善宝，谭强，于治楼，
申请(专利权)人：济南浪潮高新科技投资发展有限公司，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人