一种数据抽取方法、设备及计算机可存储介质技术

技术编号:19544051 阅读:20 留言:0更新日期:2018-11-24 20:39
本发明专利技术公开了一种数据抽取方法、设备及计算机可存储介质。所述方法包括:获取HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。本发明专利技术预先设置内容抽取规则,利用该内容抽取规则,可以对HTML文本进行细粒度的结构化抽取,进而可以获得各种类型的数据,得到包含各种类型数据的结构化数据,抽取速度快,抽取精度高。

A Data Extraction Method, Equipment and Computer Storage Media

The invention discloses a data extraction method, a device and a computer storage medium. The method includes: acquiring HTML text; extracting preset type data from the HTML text according to preset content extraction rules; and generating structured data according to preset type data extracted from the HTML text. The invention pre-sets content extraction rules, which can be used for fine-grained structured extraction of HTML text, and then can obtain various types of data, and obtain structured data containing various types of data. The extraction speed is fast and the extraction accuracy is high.

【技术实现步骤摘要】
一种数据抽取方法、设备及计算机可存储介质
本专利技术涉及大数据
,特别是涉及一种数据抽取方法、设备及计算机可存储介质。
技术介绍
目前,在舆情分析、传播分析、数据平台服务等应用场景都需要进行数据抽取,以便将获得的大量数据作为后续数据分析或者数据服务业务的数据基础。数据抽取的质量影响数据分析结果的准确性。但是,现有数据抽取方式仅是简单地抽取数据,没有细粒度地、分门别类地抽取数据,这样做抽取的数据量大且数据中包含的内容量大,不能区分出数据中包含的各类数据内容。例如:现有的数据抽取方法不区分数据中包含的标题、内容、发布时间、来源信息和发布者信息。这就造成抽取的数据不能够被有效利用,也对后续的数据分析或者数据服务业务产生了不良影响。
技术实现思路
本专利技术要解决的技术问题是提供一种数据抽取方法、设备及计算机可存储介质,用以解决现有数据抽取方法没有对数据进行细粒度抽取的问题。为了解决上述技术问题,本专利技术是通过以下技术方案来解决的:本专利技术提供了一种数据抽取方法,包括:获取HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。其中,所述根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据,包括:在所述HTML文本中,利用XPATH定位所述预设类型的数据对应的标签位置,并在所述HTML文本的所述标签位置,抽取所述预设类型的数据;和/或,在所述HTML文本中,获取预设范围内的文本,在所述预设范围内的文本中抽取所述预设类型的数据;和/或,针对所述预设类型的数据,对所述HTML文本进行全文检索,以便在所述HTML文本中抽取所述预设类型的数据。其中,所述预设类型的数据包括:标题数据、内容数据、时间数据、来源数据和/或发布者数据。其中,所述在所述预设范围内的文本中抽取预设类型的数据,包括:如果在预设范围内的文本中,抽取到多个符合预设条件的时间数据,则利用预设的时间关键词对每个所述时间数据进行评分,保留评分最高的时间数据。其中,在所述生成结构化数据之前,所述方法还包括:在抽取到所述时间数据之后,对所述时间数据进行时区转换。其中,所述根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据,包括:在所述HTML文本中,提取元信息META元素节点列表;在所述META元素节点列表中,查询来源描述节点,并在所述来源描述节点抽取来源数据。其中,所述根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据,包括:在所述HTML文本中,检索预设的来源关键字;根据所述来源关键字所在的位置,抽取来源数据。其中,所述在所述HTML文本中,检索预设的来源关键字,包括:在所述HTML文本的预设位置,检索预设的来源关键字。本专利技术提供了一种数据抽取设备,所述数据抽取设备包括处理器、存储器;所述处理器用于执行所述存储器中存储的数据抽取程序,以实上述的数据抽取方法。本专利技术提供了一种计算机可存储介质,所述计算机可存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述的数据抽取方法。本专利技术有益效果如下:本专利技术预先设置内容抽取规则,利用该内容抽取规则,可以对HTML文本进行细粒度的结构化抽取,进而可以获得各种类型的数据,得到包含各种类型数据的结构化数据,抽取速度快,抽取精度高。附图说明图1是根据本专利技术第一实施例的数据抽取方法的流程图;图2是根据本专利技术第一实施例的数据展示示意图;图3是根据本专利技术第二实施例的标题数据抽取的步骤流程图;图4是根据本专利技术第三实施例的内容数据抽取的步骤流程图;图5是根据本专利技术第四实施例的时间数据抽取的步骤流程图;图6是根据本专利技术第四实施例的时区标志示意图;图7是根据本专利技术第四实施例的时间标志词示意图;图8是根据本专利技术第四实施例的媒体常见后缀示意图;图9是根据本专利技术第四实施例的其他常见词示意图;图10是根据本专利技术第五实施例的来源数据抽取的步骤流程图;图11是根据本专利技术第六实施例的来源数据抽取的步骤流程图;图12是根据本专利技术第七实施例的数据抽取设备的结构图。具体实施方式为了解决现有技术的问题,本专利技术提供了一种数据抽取方法、设备及计算机可存储介质,以下结合附图以及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不限定本专利技术。实施例一本实施例提供了一种数据抽取方法。如图1所示,为根据本专利技术第一实施例的数据抽取方法的流程图。步骤S110,获取HTML(HyperTextMarkupLanguage,超级文本标记语言)文本。在本实施例中,HTML文本可以是HTML源码文件。在本实施例中,HTML文本的类型,包括:详情页和列表页。在本实施例中,HTML文本例如是:境内外的新闻网页、论坛页面、博客页面等数据。具体的,可以调用互联网服务提供者的下载服务,来获取HTML文本。步骤S120,根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据。该预设的内容抽取规则,包括但不限于:在HTML文本中,利用XPATH(XmlPathLanguage,可扩展标记语言路径语言)定位预设类型的数据对应的标签位置,并在所述HTML文本的所述标签位置,抽取所述预设类型的数据;和/或,在HTML文本中,获取预设范围内的文本,在所述预设范围内的文本中抽取所述预设类型的数据;和/或,针对预设类型的数据,对HTML文本进行全文检索,以便在HTML文本中抽取所述预设类型的数据。在本实施例中,预设类型的数据包括:标题数据、内容数据、时间数据、来源数据和/或发布者数据。但是,本专利技术技术人员应该知道的是,本专利技术预设类型的数据包括但不限于:标题数据、内容数据、时间数据、来源数据和发布者数据。例如:预设类型的数据还可以包括,HTML文本的来源地址。预先获取每种类型的数据对应的标签;通过XPATH在HTML文本中定位待抽取的数据对应的标签,在定位到的标签位置,可以抽取到该待抽取的数据。标题数据对应于HTML标签中的<title>;内容数据对应于HTML标签中的<body>,时间数据对应HTML标签中的<time>,来源数据对应HTML标签中的<source>,发布者数据对应HTML标签中的<address>。例如:在HTML文本中,利用XPATH定位发布者数据对应的标签<address>,在HTML文本中,在标签<address>的位置,抽取发布者数据。当然,在抽取数据的过程中,还可以进行过滤、去噪等操作,以便去除无用的数据,使本专利技术的数据抽取方法更加精确。步骤S130,根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。在本实施例中,结构化数据为行数据,可以使用二维表结构来逻辑表达抽取到的多个类型的数据。在本实施例中,结构化数据的每行数据可以包含标题数据、内容数据、时间数据、来源数据、发布者数据等数据。根据生成的结构化数据,可以为用户展示抽取到的各类型数据,如图2所示的数据展示示意图。在数据抽取本文档来自技高网...

【技术保护点】
1.一种数据抽取方法,其特征在于,包括:获取超级文本标记语言HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。

【技术特征摘要】
1.一种数据抽取方法,其特征在于,包括:获取超级文本标记语言HTML文本;根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据;根据在所述HTML文本中抽取的预设类型的数据,生成结构化数据。2.如权利要求1所述的方法,其特征在于,所述根据预设的内容抽取规则,在所述HTML文本中抽取预设类型的数据,包括:在所述HTML文本中,利用可扩展标记语言路径语言XPATH定位所述预设类型的数据对应的标签位置,并在所述HTML文本的所述标签位置,抽取所述预设类型的数据;和/或,在所述HTML文本中,获取预设范围内的文本,在所述预设范围内的文本中抽取所述预设类型的数据;和/或,针对所述预设类型的数据,对所述HTML文本进行全文检索,以便在所述HTML文本中抽取所述预设类型的数据。3.如权利要求2所述的方法,其特征在于,所述预设类型的数据包括:标题数据、内容数据、时间数据、来源数据和/或发布者数据。4.如权利要求3所述的方法,其特征在于,所述在所述预设范围内的文本中抽取预设类型的数据,包括:如果在预设范围内的文本中,抽取到多个符合预设条件的时间数据,则利用预设的时间关键词对每个所述时间数据进行评分,保留评分最高的时间数据。5.如权利要求3或4所述的方法...

【专利技术属性】
技术研发人员:郝保王海亮王磊罗引
申请(专利权)人:北京中科闻歌科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1