本公开的实施方式提供了一种信息获取方法、介质、装置和计算设备。该方法包括:获取目标网页的超文本标记语言;根据所述超文本标记语言,获取所述目标网页的标题和/或标签文本,所述标签文本中包括至少一个标签对应的文本内容;对所述超文本标记语言进行清洗处理,得到所述目标网页的正文文本,所述清洗处理用于去除所述超文本标记语言中的干扰信息;根据所述标题和/或所述标签文本,以及所述正文文本,获取所述目标网页包含的企业信息,所述企业信息中包括企业名称。实现了目标网页上的企业信息的有效提取。息的有效提取。息的有效提取。
【技术实现步骤摘要】
信息获取方法、介质、装置和计算设备
[0001]本公开的实施方式涉及互联网
,更具体地,本公开的实施方式涉及一种信息获取方法、介质、装置和计算设备。
技术介绍
[0002]本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]随着互联网技术的快速发展,网站的数量呈量级增长,相应的网页上也承载了大量的信息。在经充分授权后,可以对网页上的信息进行提取,获取网页上的大量有用的信息。例如,可以通过自然语言处理的方式对网页上的信息进行提取。
[0004]目前网页信息的提取,通常是针对网页上出现的高频词进行提取,从而获取网页的焦点或者热点。在一些情况下,需要提取网页上的企业信息,目前没有相应的方案实现网页上的企业信息的提取。
技术实现思路
[0005]本公开提供一种信息获取方法、介质、装置和计算设备,以实现网页上的企业信息的获取。
[0006]在本公开实施方式的第一方面中,提供了一种信息获取方法,包括:
[0007]获取目标网页的超文本标记语言;
[0008]根据所述超文本标记语言,获取所述目标网页的标题和/或标签文本,所述标签文本中包括至少一个标签对应的文本内容;
[0009]对所述超文本标记语言进行清洗处理,得到所述目标网页的正文文本,所述清洗处理用于去除所述超文本标记语言中的干扰信息;
[0010]根据所述标题和/或所述标签文本,以及所述正文文本,获取所述目标网页包含的企业信息,所述企业信息中包括企业名称。
[0011]在本公开的一个实施例中,所述根据所述超文本标记语言,获取所述目标网页的标题和/或标签文本,包括:
[0012]根据所述超文本标记语言中的首页标签,获取所述标题;和/或,
[0013]根据所述超文本标记语言中的目标标签和/或图片,获取所述标签文本,其中,所述目标标签为所述超文本标记语言中字符串长度小于或等于第一预设值的标签。
[0014]在本公开的一个实施例中,所述企业信息中还包括与所述企业名称关联的企业联系方式;所述根据所述标题和/或所述标签文本,以及所述正文文本,获取所述目标网页包含的企业信息,包括:
[0015]根据所述正文文本获取所述目标网页的版权文本;
[0016]根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取所述企业名称;
[0017]根据所述正文文本,获取所述企业联系方式。
[0018]在本公开的一个实施例中,所述根据所述正文文本获取所述目标网页的版权文本,包括:
[0019]获取版权特征词在所述正文文本中的位置;
[0020]根据所述位置,在所述正文文本中获取与所述版权特征词之间的字符串长度小于或等于第二预设值的第一文本;
[0021]根据所述第一文本和所述版权特征词,生成所述版权文本。
[0022]在本公开的一个实施例中,所述根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取所述企业名称,包括:
[0023]根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取至少一个命名实体;
[0024]根据各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次,在所述至少一个命名实体中获取所述企业名称。
[0025]在本公开的一个实施例中,所述根据所述版权文本、所述标题、所述标签文本和所述正文文本,获取至少一个命名实体,包括:
[0026]对所述版权文本、所述标题、所述标签文本和所述正文文本进行分词处理和词性标注处理,得到实体集合,所述实体集合中包括至少一个实体以及各实体的标注词性;
[0027]根据各所述实体的标注词性,对所述实体集合中的实体进行筛选处理,得到所述至少一个命名实体。
[0028]在本公开的一个实施例中,所述根据各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次,在所述至少一个命名实体中获取所述企业名称,包括:
[0029]获取所述版权文本的第一权重、所述标题的第二权重、所述标签文本的第三权重和所述正文文本的第四权重;
[0030]根据所述第一权重、所述第二权重、所述第三权重、所述第四权重和各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次,获取所述企业名称。
[0031]在本公开的一个实施例中,所述企业联系方式包括企业电话、企业邮箱和企业地址中的至少一个;所述根据所述正文文本,获取所述企业联系方式,包括:
[0032]获取所述企业联系方式的至少一个关键词;
[0033]根据所述至少一个关键词生成联系方式正则表达式;
[0034]根据所述联系方式正则表达式,在所述正文文本中获取所述企业联系方式。
[0035]在本公开的一个实施例中,所述企业联系方式包括企业地址,所述正文文本中不包括所述企业地址;所述方法还包括:
[0036]获取所述企业电话的区号和/或归属地;
[0037]根据所述区号和/或归属地,获取所述企业地址。
[0038]在本公开实施方式的第二方面中,提供了一种信息获取装置,包括:
[0039]第一获取模块,用于获取目标网页的超文本标记语言;
[0040]第二获取模块,用于根据所述超文本标记语言,获取所述目标网页的标题和/或标签文本,所述标签文本中包括至少一个标签对应的文本内容;
[0041]清洗模块,用于对所述超文本标记语言进行清洗处理,得到所述目标网页的正文
文本,所述清洗处理为去除所述超文本标记语言中的干扰信息;
[0042]处理模块,用于根据所述标题和/或所述标签文本,以及所述正文文本,获取所述目标网页包含的企业信息,所述企业信息中包括企业名称。
[0043]在本公开的一个实施例中,所述第二获取模块具体用于:
[0044]根据所述超文本标记语言中的首页标签,获取所述标题;和/或,
[0045]根据所述超文本标记语言中的目标标签和/或图片,获取所述标签文本,其中,所述目标标签为所述超文本标记语言中字符串长度小于或等于第一预设值的标签。
[0046]在本公开的一个实施例中,所述企业信息中还包括与所述企业名称关联的企业联系方式;所述处理模块具体用于:
[0047]根据所述正文文本获取所述目标网页的版权文本;
[0048]根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取所述企业名称;
[0049]根据所述正文文本,获取所述企业联系方式。
[0050]在本公开的一个实施例中,所述处理模块具体用于:
[0051]获取版权特征词在所述正文文本中的位置;
[0052]根据所述位置,在所述正文文本中获取与所述版权特征词之间的字符串长度小于或等于第二预设值的第一文本;
[0053]根据本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种信息获取方法,包括:获取目标网页的超文本标记语言;根据所述超文本标记语言,获取所述目标网页的标题和/或标签文本,所述标签文本中包括至少一个标签对应的文本内容;对所述超文本标记语言进行清洗处理,得到所述目标网页的正文文本,所述清洗处理用于去除所述超文本标记语言中的干扰信息;根据所述标题和/或所述标签文本,以及所述正文文本,获取所述目标网页包含的企业信息,所述企业信息中包括企业名称。2.根据权利要求1所述的方法,所述根据所述超文本标记语言,获取所述目标网页的标题和/或标签文本,包括:根据所述超文本标记语言中的首页标签,获取所述标题;和/或,根据所述超文本标记语言中的目标标签和/或图片,获取所述标签文本,其中,所述目标标签为所述超文本标记语言中字符串长度小于或等于第一预设值的标签。3.根据权利要求1或2所述的方法,所述企业信息中还包括与所述企业名称关联的企业联系方式;所述根据所述标题和/或所述标签文本,以及所述正文文本,获取所述目标网页包含的企业信息,包括:根据所述正文文本获取所述目标网页的版权文本;根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取所述企业名称;根据所述正文文本,获取所述企业联系方式。4.根据权利要求3所述的方法,所述根据所述正文文本获取所述目标网页的版权文本,包括:获取版权特征词在所述正文文本中的位置;根据所述位置,在所述正文文本中获取与所述版权特征词之间的字符串长度小于或等于第二预设值的第一文本;根据所述第一文本和所述版权特征词,生成所述版权文本。5.根据权利要求3所述的方法,所述根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取所述企业名称,包括:根据所述版权文本、所述标题、所述标签文本和所述正文文本中的至少一项,获取至少一个命名实体;根据各命名实体在所述版权文本、所述标题、所述标签文本和所述正文文本中的频次,在所述至少一个命名实体中获取所述企业名称。6.根据权利要求5所述的方法,所述...
【专利技术属性】
技术研发人员:贾乾乾,王超,
申请(专利权)人:杭州网易竹书信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。