【技术实现步骤摘要】
参会公司网站详情页信息提取方法、装置、设备及介质
本专利技术涉及文本提取
,具体涉及一种参会公司网站详情页信息提取方法、装置、设备及介质。
技术介绍
为增加曝光度和知名度,企业会选择参加一些展会以向大众展示公司品牌及产品,而作为主办方,展会网站会提前在其官网公布参会企业信息,这些信息是面向大众的公共信息,即使在展会结束后依然会在其官网保留。因信息属大众化的公共信息,研究人员会提取上述公共信息进行研究或数据挖掘分析,在抓取过程中,现有技术使用最多的就是人工匹配节点进行网页解析,或者使用“傻瓜式”可视化爬虫进行网页解析,对不同的网站都需要人工输入不同的节点路径,且对不熟悉的外文网页时还需工程师查词典以得到所需信息的位置,提取页面信息效率低且不准确,无法灵活和准确的进行页面信息提取。
技术实现思路
鉴于以上内容,有必要提出一种参会公司网站详情页信息提取方法、装置、设备及介质,通过多个预设规则特别是节点文本密度算法得到解析出每个参会公司的详情页信息,提高了提取详情页信息的效率及正确性,增加了对网站结构化信息提取的智能性及灵活性。本专利技术的第一方面提供一种参会公司网站详情页信息提取方法,节点文本密度算法包括:获取参会公司网站的HTML代码,并将所述HTML代码解析为节点DOM树;计算所述节点DOM树中每个节点的文本长度;累加所述节点DOM树中的所有节点的文本长度得到总长度;根据所述总长度计算每个节点的文本长度的占比;将小于或者等于预设第一占比阈 ...
【技术保护点】
1.一种参会公司网站详情页信息提取方法,其特征在于,节点文本密度算法包括:/n获取参会公司网站的HTML代码,并将所述HTML代码解析为节点DOM树;/n计算所述节点DOM树中每个节点的文本长度;/n累加所述节点DOM树中的所有节点的文本长度得到总长度;/n根据所述总长度计算每个节点的文本长度的占比;/n将小于或者等于预设第一占比阈值的占比更新为零,并根据更新后的占比得到文本长度占比集;/n由零元素将所述文本长度占比集分割为多个子集,其中,每个子集中包含多个连续的非零占比;/n根据所述每个子集中的非零占比计算每个子集的占比和;/n获取所述占比和中大于或者等于预设第二占比阈值对应的目标子集,并获取所述目标子集中所有非零占比对应的目标节点的PATH路径和CLASS属性;/n计算每个PATH路径和CLASS属性的数量,并将PATH路径数量最多的PATH路径作为所述参会公司的目标PATH路径,将CLASS属性数量最多的CLASS属性作为所述参会公司的目标CLASS属性;/n根据所述目标PATH路径和所述目标CLASS属性解析出所述参会公司的详情页信息。/n
【技术特征摘要】
1.一种参会公司网站详情页信息提取方法,其特征在于,节点文本密度算法包括:
获取参会公司网站的HTML代码,并将所述HTML代码解析为节点DOM树;
计算所述节点DOM树中每个节点的文本长度;
累加所述节点DOM树中的所有节点的文本长度得到总长度;
根据所述总长度计算每个节点的文本长度的占比;
将小于或者等于预设第一占比阈值的占比更新为零,并根据更新后的占比得到文本长度占比集;
由零元素将所述文本长度占比集分割为多个子集,其中,每个子集中包含多个连续的非零占比;
根据所述每个子集中的非零占比计算每个子集的占比和;
获取所述占比和中大于或者等于预设第二占比阈值对应的目标子集,并获取所述目标子集中所有非零占比对应的目标节点的PATH路径和CLASS属性;
计算每个PATH路径和CLASS属性的数量,并将PATH路径数量最多的PATH路径作为所述参会公司的目标PATH路径,将CLASS属性数量最多的CLASS属性作为所述参会公司的目标CLASS属性;
根据所述目标PATH路径和所述目标CLASS属性解析出所述参会公司的详情页信息。
2.一种参会公司网站详情页信息提取方法,其特征在于,所述参会公司网站详情页信息提取方法包括:
获取多个参会公司网站的详情页链接集合,并根据所述详情页链接集合中的每个链接下载源代码;
获取每个所述源代码中的HTML代码,并将所述HTML代码解析为第一节点DOM树;
根据所述多个参会公司的第一节点DOM树使用双端判重法提取每个所述第一节点DOM树的主体部分,得到每个参会公司的第二节点DOM树;
根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性;
根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息。
3.如权利要求2所述的参会公司网站详情页信息提取方法,所述根据多个预设规则提取每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性包括:
根据预设公司名称后缀集提取每个第二节点DOM树的主体部分中的公司名称节点的PATH路径和CLASS属性;
根据预设邮箱地址规则提取每个第二节点DOM树的主体部分中的邮箱地址节点的PATH路径和CLASS属性;
根据预设电话号码规则提取每个第二节点DOM树的主体部分中的电话号码节点的PATH路径和CLASS属性;
根据多语言地址识别算法提取每个第二节点DOM树的主体部分中的公司地址节点的PATH路径和CLASS属性;
根据节点文本密度算法提取每个第二节点DOM树的主体部分中的公司简介节点的PATH路径和CLASS属性,其中,根据所述节点文本密度算法提取每个第二节点DOM树的主体部分中的公司简介节点的PATH路径和CLASS属性包括如权利要求1所述的方法。
4.如权利要求2所述的参会公司网站详情页信息提取方法,所述根据所述每个第二节点DOM树的主体部分中的多个目标节点的PATH路径和CLASS属性解析出每个参会公司的详情页信息包括:
判断所述每个第二节点DOM树的主体部分中的每个目标节点是否包含CLASS属性;
当目标节点包含CLASS属性时,使用所述目标节点的CLASS属性解析出所述参会公司的详情页信息;
当目标节点不包含C...
【专利技术属性】
技术研发人员:祁俊辉,
申请(专利权)人:深圳市小满科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。