【技术实现步骤摘要】
行业关键词提取方法及装置
本专利技术涉及互联网技术,尤其涉及一种行业关键词提取方法及装置。
技术介绍
随着客户营销管理工作的深入,基于客户维度、行业维度的管理要求越来越迫切,对行业聚类的关键词统计已经成为刚性需求。目前的行业聚类关键词由普通分词得到或人工提供,例如,在环保行业,人工提供到的行业聚类关键词可能是与环保相关的,例如可以是环保、环保检测等关键词。然而,现有技术提取聚类关键词的精确度较低。
技术实现思路
本专利技术实施例提供一种行业关键词提取方法及装置,提高了提取聚类关键词的精确度。本专利技术实施例的第一方面,提供一种行业关键词提取方法,包括:对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。可选地,在第一方面的一种可能实现方式中,所述对所述长关键词进行分词处理, ...
【技术保护点】
1.一种行业关键词提取方法,其特征在于,包括:/n对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;/n对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;/n根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。/n
【技术特征摘要】
1.一种行业关键词提取方法,其特征在于,包括:
对原始数据处理,获取长关键词,其中,所述原始数据包括行业数据;
对所述长关键词进行分词处理,获取短关键词,其中,所述分词处理是根据所述长关键词获取的有向无环图进行处理;
根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述长关键词进行分词处理,获取短关键词,包括:
根据所述长关键词,获取有向无环图;
获取所述有向无环图的最大概率路径;
根据所述最大概率路径,获取所述短关键词。
3.根据权利要求2所述的方法,其特征在于,所述根据所述长关键词,获取有向无环图,包括:
根据预设的统计词典,对所述长关键词处理,获取前缀词统计结果;
根据所述前缀词统计结果,获取前缀词典;
根据所述前缀词典,对所述长关键词进行切分处理,获取切分结果;
根据所述切分结果获取所述有向无环图。
4.根据权利要求1所述的方法,其特征在于,所述根据所述长关键词、所述短关键词和所述行业数据,获取行业关键词数据,包括:
根据所述长关键词和所述行业数据,获取各行业的长关键词词频数据;
根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据;
根据各行业的所述长关键词词频数据和所述短关键词词频数据,获取所述行业关键词数据。
5.根据权利要求4所述的方法,其特征在于,所述根据所述短关键词和所述行业数据,获取各行业的短关键词词频数据之后,还包括:
根据所述短关键词词频数据...
【专利技术属性】
技术研发人员:付喆,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。