一种数据抽取方法、设备及计算机可存储介质技术

技术编号：19544051 阅读：32 留言：0更新日期：2018-11-24 20:39

本发明专利技术公开了一种数据抽取方法、设备及计算机可存储介质。所述方法包括：获取HTML文本；根据预设的内容抽取规则，在所述HTML文本中抽取预设类型的数据；根据在所述HTML文本中抽取的预设类型的数据，生成结构化数据。本发明专利技术预先设置内容抽取规则，利用该内容抽取规则，可以对HTML文本进行细粒度的结构化抽取，进而可以获得各种类型的数据，得到包含各种类型数据的结构化数据，抽取速度快，抽取精度高。

A Data Extraction Method, Equipment and Computer Storage Media

The invention discloses a data extraction method, a device and a computer storage medium. The method includes: acquiring HTML text; extracting preset type data from the HTML text according to preset content extraction rules; and generating structured data according to preset type data extracted from the HTML text. The invention pre-sets content extraction rules, which can be used for fine-grained structured extraction of HTML text, and then can obtain various types of data, and obtain structured data containing various types of data. The extraction speed is fast and the extraction accuracy is high.

全部详细技术资料下载

【技术实现步骤摘要】
一种数据抽取方法、设备及计算机可存储介质
本专利技术涉及大数据
，特别是涉及一种数据抽取方法、设备及计算机可存储介质。
技术介绍
目前，在舆情分析、传播分析、数据平台服务等应用场景都需要进行数据抽取，以便将获得的大量数据作为后续数据分析或者数据服务业务的数据基础。数据抽取的质量影响数据分析结果的准确性。但是，现有数据抽取方式仅是简单地抽取数据，没有细粒度地、分门别类地抽取数据，这样做抽取的数据量大且数据中包含的内容量大，不能区分出数据中包含的各类数据内容。例如：现有的数据抽取方法不区分数据中包含的标题、内容、发布时间、来源信息和发布者信息。这就造成抽取的数据不能够被有效利用，也对后续的数据分析或者数据服务业务产生了不良影响。
技术实现思路
本专利技术要解决的技术问题是提供一种数据抽取方法、设备及计算机可存储介质，用以解决现有数据抽取方法没有对数据进行细粒度抽取的问题。为了解决上述技术问题，本专利技术是通过以下技术方案来解决的：本专利技术提供了一种数据抽取方法，包括：获取HTML文本；根据预设的内容抽取规则，在所述HTML文本中抽取预设类型的数据；根据在所述HTM...

【技术保护点】
1.一种数据抽取方法，其特征在于，包括：获取超级文本标记语言HTML文本；根据预设的内容抽取规则，在所述HTML文本中抽取预设类型的数据；根据在所述HTML文本中抽取的预设类型的数据，生成结构化数据。

【技术特征摘要】
1.一种数据抽取方法，其特征在于，包括：获取超级文本标记语言HTML文本；根据预设的内容抽取规则，在所述HTML文本中抽取预设类型的数据；根据在所述HTML文本中抽取的预设类型的数据，生成结构化数据。2.如权利要求1所述的方法，其特征在于，所述根据预设的内容抽取规则，在所述HTML文本中抽取预设类型的数据，包括：在所述HTML文本中，利用可扩展标记语言路径语言XPATH定位所述预设类型的数据对应的标签位置，并在所述HTML文本的所述标签位置，抽取所述预设类型的数据；和/或，在所述HTML文本中，获取预设范围内的文本，在所述预设范围内的文本中抽取所述预设类型的数据；和/或，针对所述预设类型的数据，对所述HTML文本进行全文检索，以便在所述HTML文本中抽取所述预设类型的数据。3.如权利要求2所述的方法，其特征在于，所述预设类型的数据包括：标题数据、内容数据、时间数据、来源数据和/或发布者数据。4.如权利要求3所述的方法，其特征在于，所述在所述预设范围内的文本中抽取预设类型的数据，包括：如果在预设范围内的文本中，抽取到多个符合预设条件的时间数据，则利用预设的时间关键词对每个所述时间数据进行评分，保留评分最高的时间数据。5.如权利要求3或4所述的方法...

【专利技术属性】
技术研发人员：郝保，王海亮，王磊，罗引，
申请(专利权)人：北京中科闻歌科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人