参会公司网站详情页信息提取方法、装置、设备及介质制造方法及图纸

技术编号:25522014 阅读:30 留言:0更新日期:2020-09-04 17:12
本发明专利技术涉及文本提取技术领域,提出一种参会公司网站详情页信息提取方法、装置、设备及介质,方法包括:获取多个参会公司网站的详情页链接集合并下载源代码;获取源代码中的HTML代码后解析为第一节点DOM树;根据多个参会公司的第一节点DOM树提取第一节点DOM树的主体部分得到第二节点DOM树;根据多个预设规则提取第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性;根据第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息。本发明专利技术通过多个预设规则得到解析出每个参会公司的详情页信息,提高了提取详情页信息的效率及正确性。

【技术实现步骤摘要】
参会公司网站详情页信息提取方法、装置、设备及介质
本专利技术涉及文本提取
,具体涉及一种参会公司网站详情页信息提取方法、装置、设备及介质。
技术介绍
为增加曝光度和知名度,企业会选择参加一些展会以向大众展示公司品牌及产品,而作为主办方,展会网站会提前在其官网公布参会企业信息,这些信息是面向大众的公共信息,即使在展会结束后依然会在其官网保留。因信息属大众化的公共信息,研究人员会提取上述公共信息进行研究或数据挖掘分析,在抓取过程中,现有技术使用最多的就是人工匹配节点进行网页解析,或者使用“傻瓜式”可视化爬虫进行网页解析,对不同的网站都需要人工输入不同的节点路径,且对不熟悉的外文网页时还需工程师查词典以得到所需信息的位置,提取页面信息效率低且不准确,无法灵活和准确的进行页面信息提取。
技术实现思路
鉴于以上内容,有必要提出一种参会公司网站详情页信息提取方法、装置、设备及介质,通过多个预设规则特别是节点文本密度算法得到解析出每个参会公司的详情页信息,提高了提取详情页信息的效率及正确性,增加了对网站结构化信息提取的智能性及灵活性。本专利技术的第一方面提供一种参会公司网站详情页信息提取方法,节点文本密度算法包括:获取参会公司网站的HTML代码,并将所述HTML代码解析为节点DOM树;计算所述节点DOM树中每个节点的文本长度;累加所述节点DOM树中的所有节点的文本长度得到总长度;根据所述总长度计算每个节点的文本长度的占比;将小于或者等于预设第一占比阈值的占比更新为零,并根据更新后的占比得到文本长度占比集;由零元素将所述文本长度占比集分割为多个子集,其中,每个子集中包含多个连续的非零占比;根据所述每个子集中的非零占比计算每个子集的占比和;获取所述占比和中大于或者等于预设第二占比阈值对应的目标子集,并获取所述目标子集中所有非零占比对应的目标节点的PATH路径和CLASS属性;计算每个PATH路径和CLASS属性的数量,并将PATH路径数量最多的PATH路径作为所述参会公司的目标PATH路径,将CLASS属性数量最多的CLASS属性作为所述参会公司的目标CLASS属性;根据所述目标PATH路径和所述目标CLASS属性解析出所述参会公司的详情页信息。本专利技术的第二方面提供一种参会公司网站详情页信息提取方法,所述方法包括:获取多个参会公司网站的详情页链接集合,并根据所述详情页链接集合中的每个链接下载源代码;获取每个所述源代码中的HTML代码,并将所述HTML代码解析为第一节点DOM树;根据所述多个参会公司的第一节点DOM树使用双端判重法提取每个所述第一节点DOM树的主体部分,得到每个参会公司的第二节点DOM树;根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性;根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息。优选的,所述根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性包括:根据预设公司名称后缀集提取每个第二节点DOM树的主体部分中的公司名称节点的PATH路径和CLASS属性;根据预设邮箱地址规则提取每个第二节点DOM树的主体部分中的邮箱地址节点的PATH路径和CLASS属性;根据预设电话号码规则提取每个第二节点DOM树的主体部分中的电话号码节点的PATH路径和CLASS属性;根据多语言地址识别算法提取每个第二节点DOM树的主体部分中的公司地址节点的PATH路径和CLASS属性;根据节点文本密度算法提取每个第二节点DOM树的主体部分中的公司简介节点的PATH路径和CLASS属性,其中,根据所述节点文本密度算法提取每个第二节点DOM树的主体部分中的公司简介节点的PATH路径和CLASS属性。优选的,所述根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息包括:判断所述每个第二节点DOM树的主体部分中的每个目标节点是否包含CLASS属性;当目标节点包含CLASS属性时,使用所述目标节点的CLASS属性解析出所述参会公司的详情页信息;当目标节点不包含CLASS属性时,使用所述目标节点的PATH路径解析出所述参会公司的详情页信息。优选的,所述根据所述多个参会公司的第一节点DOM树使用双端判重法提取每个所述第一节点DOM树的主体部分,得到每个参会公司的第二节点DOM树包括:针对每个参会公司,将所述参会公司的第一节点DOM树作为目标第一节点DOM树,将其他任意一个参会公司的第一节点DOM树作为候选第一节点DOM树;从所述目标第一节点DOM树的头部开始依次获取每个第一节点,从每个候选第一节点DOM树中获取与所述第一节点相同的第二节点,将所述第一节点的信息与所述第二节点的信息进行匹配,直至所述第一节点的信息与所述第二节点的信息不匹配时,将所述第一节点记录为起始下标;从所述目标第一节点DOM树的尾部开始依次获取每个第三节点,从每个候选第一节点DOM树中获取与所述第三节点相同的第四节点,将所述第三节点的信息与所述第四节点的信息进行匹配,直至所述第三节点的信息与所述第四节点的信息不匹配时,将所述第三节点记录为结束下标;获取每个起始下标和每个结束下标的记录次数;根据所述记录次数确定所述参会公司的第二节点DOM树。优选的,所述根据所述记录次数确定所述参会公司的第二节点DOM树包括:将记录次数最多的起始下标作为目标起始下标,及将记录次数最多的结束下标作为目标结束下标;从所述目标第一节点DOM树的中截取所述目标起始下标至所述目标结束下标的主体部分确定为所述参会公司的第二节点DOM树。优选的,所述参会公司网站详情页信息提取方法还包括:当获取的参会公司网站的详情页的个数大于预设训练样本数量时,从所述获取的参会公司网站的详情页的个数中随机挑选N个参会公司网站的详情页进行训练。本专利技术的第三方面提供一种参会公司网站详情页信息提取装置,所述装置包括:获取模块,用于获取多个参会公司网站的详情页链接集合,并根据所述详情页链接集合中的每个链接下载源代码;第一解析模块,用于获取每个所述源代码中的HTML代码,并将所述HTML代码解析为第一节点DOM树;第一提取模块,用于根据所述多个参会公司的第一节点DOM树使用双端判重法提取每个所述第一节点DOM树的主体部分,得到每个参会公司的第二节点DOM树;第二提取模块,用于根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性;第二解析模块,用于根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页本文档来自技高网...

【技术保护点】
1.一种参会公司网站详情页信息提取方法,其特征在于,节点文本密度算法包括:/n获取参会公司网站的HTML代码,并将所述HTML代码解析为节点DOM树;/n计算所述节点DOM树中每个节点的文本长度;/n累加所述节点DOM树中的所有节点的文本长度得到总长度;/n根据所述总长度计算每个节点的文本长度的占比;/n将小于或者等于预设第一占比阈值的占比更新为零,并根据更新后的占比得到文本长度占比集;/n由零元素将所述文本长度占比集分割为多个子集,其中,每个子集中包含多个连续的非零占比;/n根据所述每个子集中的非零占比计算每个子集的占比和;/n获取所述占比和中大于或者等于预设第二占比阈值对应的目标子集,并获取所述目标子集中所有非零占比对应的目标节点的PATH路径和CLASS属性;/n计算每个PATH路径和CLASS属性的数量,并将PATH路径数量最多的PATH路径作为所述参会公司的目标PATH路径,将CLASS属性数量最多的CLASS属性作为所述参会公司的目标CLASS属性;/n根据所述目标PATH路径和所述目标CLASS属性解析出所述参会公司的详情页信息。/n

【技术特征摘要】
1.一种参会公司网站详情页信息提取方法,其特征在于,节点文本密度算法包括:
获取参会公司网站的HTML代码,并将所述HTML代码解析为节点DOM树;
计算所述节点DOM树中每个节点的文本长度;
累加所述节点DOM树中的所有节点的文本长度得到总长度;
根据所述总长度计算每个节点的文本长度的占比;
将小于或者等于预设第一占比阈值的占比更新为零,并根据更新后的占比得到文本长度占比集;
由零元素将所述文本长度占比集分割为多个子集,其中,每个子集中包含多个连续的非零占比;
根据所述每个子集中的非零占比计算每个子集的占比和;
获取所述占比和中大于或者等于预设第二占比阈值对应的目标子集,并获取所述目标子集中所有非零占比对应的目标节点的PATH路径和CLASS属性;
计算每个PATH路径和CLASS属性的数量,并将PATH路径数量最多的PATH路径作为所述参会公司的目标PATH路径,将CLASS属性数量最多的CLASS属性作为所述参会公司的目标CLASS属性;
根据所述目标PATH路径和所述目标CLASS属性解析出所述参会公司的详情页信息。


2.一种参会公司网站详情页信息提取方法,其特征在于,所述参会公司网站详情页信息提取方法包括:
获取多个参会公司网站的详情页链接集合,并根据所述详情页链接集合中的每个链接下载源代码;
获取每个所述源代码中的HTML代码,并将所述HTML代码解析为第一节点DOM树;
根据所述多个参会公司的第一节点DOM树使用双端判重法提取每个所述第一节点DOM树的主体部分,得到每个参会公司的第二节点DOM树;
根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性;
根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息。


3.如权利要求2所述的参会公司网站详情页信息提取方法,所述根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性包括:
根据预设公司名称后缀集提取每个第二节点DOM树的主体部分中的公司名称节点的PATH路径和CLASS属性;
根据预设邮箱地址规则提取每个第二节点DOM树的主体部分中的邮箱地址节点的PATH路径和CLASS属性;
根据预设电话号码规则提取每个第二节点DOM树的主体部分中的电话号码节点的PATH路径和CLASS属性;
根据多语言地址识别算法提取每个第二节点DOM树的主体部分中的公司地址节点的PATH路径和CLASS属性;
根据节点文本密度算法提取每个第二节点DOM树的主体部分中的公司简介节点的PATH路径和CLASS属性,其中,根据所述节点文本密度算法提取每个第二节点DOM树的主体部分中的公司简介节点的PATH路径和CLASS属性包括如权利要求1所述的方法。


4.如权利要求2所述的参会公司网站详情页信息提取方法,所述根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息包括:
判断所述每个第二节点DOM树的主体部分中的每个目标节点是否包含CLASS属性;
当目标节点包含CLASS属性时,使用所述目标节点的CLASS属性解析出所述参会公司的详情页信息;
当目标节点不包含C...

【专利技术属性】
技术研发人员:祁俊辉
申请(专利权)人:深圳市小满科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1