一种基于深度神经网络的公司网站关键词提取方法技术

技术编号:21034599 阅读:32 留言:0更新日期:2019-05-04 05:32
本发明专利技术涉及一种基于深度神经网络的公司网站关键词提取方法,其通过从公司的一级页面和二级页面中获取基础语料,然后从基础语料中提取名词短语;利用循环神经网络模型对名词短语进行向量化,得到名词短语向量;将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要关键词。与现有技术相比,通过本发明专利技术方法获取到的公司网站关键词比较准确,使用户能准确搜索或了解该公司的情况。

A Method of Keyword Extraction from Company Website Based on Deep Neural Network

【技术实现步骤摘要】
一种基于深度神经网络的公司网站关键词提取方法
本专利技术涉及关键词提取领域,具体涉及一种基于深度神经网络的公司网站关键词提取方法。
技术介绍
搜索推荐场景下,目标公司产品服务的描述及所属行业信息对于匹配相关公司的用户具有直接意义。目前,公司网站的关键词一般是由公司人工选择设定,当公司网站上的业务信息有所更新时,关键词并不能随之更新,这就会使得该公司网站的关键词与实际会有所偏差,导致用户不能准确搜索或了解该公司的情况。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于深度神经网络的公司网站关键词提取方法,其能够准确提取出公司网站的关键词。为实现上述目的,本专利技术采用的技术方案是:一种基于深度神经网络的公司网站关键词提取方法,其包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码;对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语,并进行去重处理;步骤3、利用循环神经网络模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量;步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;步骤5、采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;步骤6、在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要关键词。采用上述方案后,本专利技术通过从公司的一级页面和二级页面中获取基础语料,然后从基础语料中提取名词短语;利用循环神经网络模型对名词短语进行向量化,得到名词短语向量;将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要关键词。与现有技术相比,通过本专利技术方法获取到的公司网站关键词比较准确,使用户能准确搜索或了解该公司的情况。附图说明图1为本专利技术流程图。具体实施方式如图1所示,本专利技术揭示了一种基于深度神经网络的公司网站关键词提取方法,其包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码。对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料。步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练,在进行词向量训练时可以采用woed2vec模型或者glove模型。对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语(NP),并进行去重处理。步骤3、利用循环神经网络(RNN)模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量。步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量。步骤5、采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜。步骤6、在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要关键词。本专利技术的关键在于,本专利技术通过从公司的一级页面和二级页面中获取基础语料,然后从基础语料中提取名词短语;利用循环神经网络模型对名词短语进行向量化,得到名词短语向量;将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要关键词。与现有技术相比,通过本专利技术方法获取到的公司网站关键词比较准确,使用户能准确搜索或了解该公司的情况。以上所述,仅是本专利技术实施例而已,并非对本专利技术的技术范围作任何限制,故凡是依据本专利技术的技术实质对以上实施例所作的任何细微修改、等同变化与修饰,均仍属于本专利技术技术方案的范围内。本文档来自技高网...

【技术保护点】
1.一种基于深度神经网络的公司网站关键词提取方法,其特征在于:所述方法包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码;对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后的基础语料进行句法结构分析,分析完成后提取名词短语,并进行去重处理;步骤3、利用循环神经网络模型对步骤2中获取到的名词短语进行向量化,将每一个名词短语映射为一个定长的向量,得到名词短语向量;步骤4、将公司的所有名词短语向量进行加权求和,得到代表一个公司整体的向量,即公司主向量;步骤5、采用余弦相似度计算公司的各个名词短语向量与该公司主向量之间的相似度,并按照相似程度由高至低对公司的名词短语向量进行排序,得到名词短语排行榜;步骤6、在名词短语排行榜中选择排名为前K名的名词短语向量作为公司的主要关键词。...

【技术特征摘要】
1.一种基于深度神经网络的公司网站关键词提取方法,其特征在于:所述方法包括以下步骤:步骤1、从公司网站中获取基础语料;从公司的网站中爬取主页即一级页面,以及能够从主页跳转到的同域名页面,即二级页面;利用预先设置好的关键词词典,对一级页面和二级页面的URL进行筛选,获取网页源码;对网页源码进行过滤处理,过滤非文本内容,留下文本内容,并对文本内容进行分句处理,得到分句文本,将该分句文本作为基础语料;步骤2、从基础语料中提取名词短语;对步骤1得到的基础语料进行单词统计,并进行词向量训练;对经过词向量训练后...

【专利技术属性】
技术研发人员:王凯锋吴承霖王海清
申请(专利权)人:厦门笨鸟电子商务有限公司
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1