【技术实现步骤摘要】
关键词提取方法、装置及电子设备
[0001]本专利技术涉及通信
,特别是指一种关键词提取方法、装置及电子设备。
技术介绍
[0002]目前基于复杂网络的文本关键词获取方法,通常是对待提取关键词的文本用自然语言处理(Natural Language Processing,NLP)工具进行预处理,然后采用文本成图的方法将预处理后的文本转化为网络结构表示,最后采用复杂网络中的k
‑
core分解方法对网络结构表示的文本的网络结构进行分解,得到网络结构表示的文本中的最核心词汇,也就是所需要的关键词,进而获取待提取关键词的文本的所有关键词。其中在生成网络结构时通常是将预处理得到的所有分词进行两两连边得到的,其网络连边无具体含义,基于该网络结构提取得到的关键词准确性较差。
技术实现思路
[0003]本专利技术的目的是提供一种关键词提取方法、装置及电子设备,以解决目前的用于提取关键词的网络结构信息利用率低,且存在所提取关键词准确性较差的问题。
[0004]为达到上述目的,本专利技术的实施例提供 ...
【技术保护点】
【技术特征摘要】
1.一种关键词提取方法,其特征在于,包括:获取文本数据中的多个分词;根据所述多个分词中每两个分词的相似关系,确定每两个分词之间连边的权重值;根据所述每两个分词之间连边的权重值,将所述多个分词中的每个分词作为网络节点构建语义网络;根据所述语义网络,从所述多个分词中提取得到所述文本数据的关键词。2.根据权利要求1所述的方法,其特征在于,所述获取文本数据中的多个分词,包括:获取文本数据;对所述文本数据进行预处理,得到所述文本数据中的多个分词;其中,所述预处理包括清洗处理、分词处理、去停用词处理。3.根据权利要求1所述的方法,其特征在于,所述根据所述多个分词中每两个分词的相似关系,确定每两个分词之间连边的权重值,包括:根据每个所述分词在所述文本数据的每个语句中的存在关系,确定每两个分词之间的相似关系;根据所述相似关系,确定每两个分词之间连边的权重值。4.根据权利要求3所述的方法,其特征在于,所述根据每个所述分词在所述文本数据的每个语句中的存在关系,确定每两个分词之间的相似关系,包括:根据每个所述分词在所述文本数据的每个语句中的存在关系,获得每个分词对应的存在关系的向量;根据每两个分词对应的存在关系的向量,计算得到每两个分词之间的相似度值;将所述相似度值确定为每两个分词之间的相似关系。5.根据权利要求4所述的方法,其特征在于,所述根据每两个分词对应的存在关系的向量,计算得到每两个分词之间的相似度值,包括:根据每两个分词对应的存在关系的向量,计算每两个分词对应的存在关系的向量的膜之积;根据每两个分词对应的存在关系的向量之积,与所述每两个分词对应的存在关系的向量的膜之积的比值,得到每两个分词之间的相似度值。6.根据权利要求4所述的方法,其特征在于,所述根据所述相似关系,确定每两个分词之间连边的权重值,包括:根据所述相似度值,基于第一函数计算得到所述每两个分词之间连边的权重值;其中,所述第一函数用于表征所述相似度值与所述权重值之间的单调负相关关系。7.根据权利要求1所述的方法,其特征在于,所述根据所述每两个分词之间连边的权重值,将所述多个分词中的每个分词作为网络节点构建语义网络,包括:按照权重值升序的规则,对所有分词之间的连边进行排列,得到所有连边排列后的顺序;将所述多个分词中的每个分词作为网络节点,并按照所有连边排列后的顺序,依次对每个连边执行匹配处理后,得到所述语义网络。8.根据权利要求7所述的方法,其特征在于,所述按照所有分词之间连边的权重值升序,对所有连边进行排列,得到所有连边排列后的顺序,包括:
按照权重值升序的规则,对所有分词之间的连边进行排列;若所有连边的权重值均不相同,则确定得到所有连边排列后的顺序;若多个第一连...
【专利技术属性】
技术研发人员:贾霁,文涛,
申请(专利权)人:中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。