【技术实现步骤摘要】
网页文本信息提取方法及装置、终端设备和存储介质
[0001]本专利技术涉及数据处理
,尤其涉及一种网页文本信息提取方法、一种网页文本信息提取装置、一种计算机可读存储介质和一种终端设备。
技术介绍
[0002]互联网信息爆炸式的增长为人们获取知识提供了便利,同时如何能够从海量的非结构化网页中获取精确的结构化数据是需要考虑的,精确的结构化数据指的是对于个人或者企业来说与自身业务需求极大相关的内容,如招投标信息中的招标价格对于建筑行业公司的意义。
[0003]目前精确结构化数据的提取方法大致可以分为两类:一类是基于规则的提取结构化数据的方法,另一类是基于深度学习的方法。然而,基于规则的方法比较繁琐,需要定义的规则比较多,难于维护,无法应对复杂多样的网页结构;基于深度学习的方法在面对复杂多样的网页结构时,算法建模比较困难,信息提取速度慢,准确度低。
技术实现思路
[0004]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种网页文本信息提取方法,能够将网 ...
【技术保护点】
【技术特征摘要】
1.一种网页文本信息提取方法,其特征在于,包括:解析HTML网页源码,以获得网页文本信息;根据所述网页文本信息确定文本类型;在所述文本类型为非表格时,根据预设关键字从所述网页文本信息中提取目标内容;在所述文本类型为表格时,根据所述预设关键字和单元格信息块标识符从所述网页文本信息中提取目标内容。2.根据权利要求1所述的网页文本信息提取方法,其特征在于,根据预设关键字从所述网页文本信息中提取目标内容,包括:识别所述网页文本信息中包含所述预设关键字,采用正则表达式从所述网页文本信息中提取所述目标内容;识别所述目标内容中存在与所述预设关键字对应的文本信息,更新所述预设关键字;识别所述目标内容中不存在与所述预设关键字对应的文本信息,采用命名实体识别技术对所述网页文本信息进行识别。3.根据权利要求2所述的网页文本信息提取方法,其特征在于,采用命名实体识别技术对所述网页文本信息进行识别,包括:当识别结果为存在所述目标内容时,更新关键字信息;当识别结果为不存在所述目标内容时,确定所述网页文本信息中不存在所述目标内容。4.根据权利要求1所述的网页文本信息提取方法,其特征在于,根据预设关键字从所述网页文本信息中提取目标内容,包括:识别所述网页文本信息中当前段落不包含所述预设关键字,且在所述当前段落之前已经找到所述预设关键字,采用命名实体识别技术对所述网页文本信息中当前段落进行提取,作为所述目标内容。5.根据权利要求1所述的网页文本信息提取方法,其特征在于,根据所述预设关键字和单元格信息块标识符从所述网页文本信息中提取目标内容,包括:遍历所述表格中的所有单元格;识别当前单元格中包含所述预设关键字,确定所述当前单元格所在行为表头时,提取下一行单元格内的文本信息,并将所述预设关键字所在列对应的单元格内的文本信息作为所述目标内容。6.根据权利要求5所述的网页文本信息提取方法,其特征在于,确定所述当前单元格所在行不是表头,且所述当前单元格位于当前行的最后一列时,采用命名实体识别技术提取所述当前单元格所在列的单元格内的文本信息作为所述目标内容。7.根据权利要求6所述的网页文本信息提取方法,其特征在于,确定所述当前单元格所在行不是表头,且所述当前单元格不位于当前行的最后一列时,从所述当前单元格开始向右依次判断每个单元格中是否包含所述预设关键字或者所述单元格信息块标识符,其中,如果不包含,则采用命名实体识别技术提取所述当前单元格的右侧单元格中的文本信息作为所述目标内容;如果包含,且所述当前单元格右侧单元...
【专利技术属性】
技术研发人员:宋恒,何兰生,肖丽娜,耿天宝,刘道学,李亚楠,
申请(专利权)人:安徽数智建造研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。