一种数据清洗方法及相关设备技术

技术编号：26342788 阅读：54 留言：0更新日期：2020-11-13 20:38

本申请实施例公开了一种数据清洗方法及相关设备，应用于医疗系统的数据处理技术领域，所述方法包括：爬取网页数据，并从网页数据中提取HTML文本；删除HTML文本中的指定代码块，得到第一文本；将第一文本中的换行标签替换为换行符，得到第二文本；将第二文本中链接标签对应内容中目标属性值以外的部分删除，以保留第二文本中的链接，得到包括链接的第三文本；若检测到第三文本中的链接完整，则删除第三文本中的HTML标签和连续的换行符，得到对网页数据清洗后的目标数据。本方法可以使数据清洗后的网页数据仍然保留原始网页中正文内容的段落格式和链接位置，方便医疗系统后续可以快速从提取到的目标内容中定位到所需的内容或者链接。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据清洗方法及相关设备
本申请涉及数字医疗
，应用于数据处理
，尤其涉及一种数据清洗方法及相关设备。
技术介绍
数据清洗是对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。在医疗系统中通过网络爬虫爬取公开数据时，可能需对要数据中的超文本标记语言（HyperTextMarkupLanguage，HTML）页面进行清洗，并从中精确提取段落格式、段落、图片链接、超链接等，但目前的提取方式无法保留段落格式以及链接的位置信息，不利于后续使用。
技术实现思路
本申请实施例提供了一种数据清洗方法及相关设备，可以使数据清洗后的网页数据仍然保留原始网页中正文内容的段落格式，同时也可以保留链接的位...

【技术保护点】
1.一种数据清洗方法，其特征在于，包括：/n爬取网页数据，并从所述网页数据中提取HTML文本；/n删除所述HTML文本中的指定代码块，得到第一文本；/n将所述第一文本中的换行标签替换为换行符，得到第二文本；/n将所述第二文本中链接标签对应内容中目标属性值以外的部分删除，以保留所述第二文本中的链接，得到包括所述链接的第三文本；/n若检测到所述第三文本中的所述链接完整，则删除所述第三文本中的HTML标签和连续的所述换行符，得到对所述网页数据清洗后的目标数据。/n

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括：
爬取网页数据，并从所述网页数据中提取HTML文本；
删除所述HTML文本中的指定代码块，得到第一文本；
将所述第一文本中的换行标签替换为换行符，得到第二文本；
将所述第二文本中链接标签对应内容中目标属性值以外的部分删除，以保留所述第二文本中的链接，得到包括所述链接的第三文本；
若检测到所述第三文本中的所述链接完整，则删除所述第三文本中的HTML标签和连续的所述换行符，得到对所述网页数据清洗后的目标数据。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
判断所述第三文本中所述链接的第一位置对应的字段是否为第一预设链接字段；
若是，则判断所述第三文本中的所述链接完整；若否，则判断所述第三文本中的所述链接不完整。

3.根据权利要求2所述的方法，其特征在于，所述判断所述第三文本中的所述链接不完整之后，所述方法还包括：
获取所述网页数据对应网页的网页链接，判断所述网页链接中第二位置对应字段是否为第二预设链接字段；
若是，则从所述网页链接中提取网络协议，并基于所述网络协议对所述链接进行补全处理。

4.根据权利要求3所述的方法，其特征在于，所述判断所述第三文本中的所述链接不完整之后，所述方法还包括：
若判断得到网页链接中第二位置对应字段不为第二预设链接字段，则判断所述网页链接中第三位置对应字段是否为第三预设链接字段；
若是，则统计所述第三预设链接字段在所述第三文本的链接中出现的次数N，所述N为大于1的整数；
从所述网页链接中删除最后N个所述第三预设链接字段前后的指定部分字段，得到基础链接；
基于所述基础链接对所述链接进行补全处理。

5.根据权利要求1所述的方法，其特征在于，所述删除所述HTML文本中的指定代码块，...

【专利技术属性】
技术研发人员：李超，徐国强，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人