【技术实现步骤摘要】
一种基于深度神经网络的公司网站关键词提取方法
本专利技术涉及关键词提取领域,具体涉及一种基于深度神经网络的公司网站关键词提取方法。
技术介绍
搜索推荐场景下,目标公司产品服务的描述及所属行业信息对于匹配相关公司的用户具有直接意义。目前,公司网站的关键词一般是由公司人工选择设定,当公司网站上的业务信息有所更新时,关键词并不能随之更新,这就会使得该公司网站的关键词与实际会有所偏差,导致用户不能准确搜索或了解该公司的情况。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于深度神经网络的公司网站关键词提取方法,其能够准确提取出公司网站的关键词。为实现上述目的,本专利技术采用的技术方案是:一种基于深度神经网络的公司网站关键词提取方法,其包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码;对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语,并进行去重处理;步骤3、利用循环神经网络模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量;步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;步骤5、采用余弦相似度计算公 ...
【技术保护点】
1.一种基于深度神经网络的公司网站关键词提取方法,其特征在于:所述方法包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码;对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语,并进行去重处理;步骤3、利用循环神经网络模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量;步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;步骤5、采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;步骤6、在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要 ...
【技术特征摘要】
1.一种基于深度神经网络的公司网站关键词提取方法,其特征在于:所述方法包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码;对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后...
【专利技术属性】
技术研发人员:王凯锋,吴承霖,王海清,
申请(专利权)人:厦门笨鸟电子商务有限公司,
类型:发明
国别省市:福建,35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。