新关键词挖掘方法、装置及电子设备制造方法及图纸

技术编号:26259434 阅读:24 留言:0更新日期:2020-11-06 17:54
本申请涉及一种新关键词挖掘方法、装置及电子设备,新关键词挖掘方法包括获取互联网文本;根据互联网文本枚举多个切分片段,同时提取切分片段在当前上下文中的左右邻接字符;计算每个切分片段的内聚度;根据左右邻接字符计算每个切分片段的左右熵;将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表。本申请可以从海量互联网文本数据中快速挖掘出新关键词,且挖掘结果更加准确。

【技术实现步骤摘要】
新关键词挖掘方法、装置及电子设备
本申请属于信息处理
,具体涉及一种新关键词挖掘方法、装置及电子设备。
技术介绍
随着互联网行业的蓬勃发展,互联网营销逐渐兴起,互联网营销是指基于互联网平台,利用信息技术与工具满足公司与客户之间交换概念、产品、服务的过程,通过在线活动创造、宣传、传递客户价值,并且对客户关系进行管理,以达到一定营销目的的新型营销活动。在互联网时代背景下的行业营销的战场中,几乎每个品牌主都非常关注最新的行业动态的变化。行业动态的变化包括最新诞生的竞品品牌,当下热议的行业痛点和用户需求,以及同行们正在使用的吸睛话术等等。为了能在最短的时间内捕获这些重要的行业动态,做为品牌的营销技术公司在最及时的响应时间内通过各种技术分析和挖掘手段,来品牌主提供最新的业界情报。传统的新关键词挖掘方法是通过收集近期互联网文本,在互联网文本集合中通过分词工具进行相关行业类别的过滤筛选后,挖掘出最新的行业特征词(品牌、需求、痛点、话题等),并交由后续的模型分析和业务判断。但由于最新诞生的行业特征词,往往是传统的分词工具难以准确切分的。并且,随着文本数据的急剧增长,往往需要从更海量的文本集合中进行新关键词挖掘,而新关键词挖掘方法只适用于小样本数据挖掘,无法承担处理海量的文本集合的任务。
技术实现思路
为至少在一定程度上克服传统的新关键词挖掘方法难以准确进行文本切分,并且,随着文本数据的急剧增长,往往需要从更海量的文本集合中进行新关键词挖掘,新关键词挖掘方法无法承担处理海量的文本集合的任务的问题,本申请提供一种新关键词挖掘方法、装置及电子设备。第一方面,本申请提供一种新关键词挖掘方法,包括:获取互联网文本;根据所述互联网文本枚举多个切分片段,同时提取所述切分片段在当前上下文中的左右邻接字符;计算每个切分片段的内聚度;根据所述左右邻接字符计算每个切分片段的左右熵;将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表。进一步的,所述方法还包括:对所述新关键词结果表中的新关键词进行修复。进一步的,所述对所述新关键词结果表中的新关键词进行修复,包括:设定左右熵差值阈值和字符长度阈值;获取当前切分片段的左右熵差值和字符长度;根据所述当前切分片段的左右熵差值和字符长度与所述设定左右熵差值阈值和字符长度阈值的关系识别出错误切分片段;对所述错误切分片段进行修复。进一步的,所述对所述错误切分片段进行修复,包括:对所述错误切分片段进行子串切分得到子切分片段;将每个子切分片段在所述新关键词结果表中进行关联查找;若查找到对应新关键词则将所述错误切分片段替换为子切分片段;和/或;对所述错误切分片段进行串外接得到串外接切分片段;将每个串外接切分片段在所述新关键词结果表中进行关联查找;若查找到对应新关键词则将所述错误切分片段替换为串外接切分片段。进一步的,所述方法还包括:获取有行业类别标注的互联网文本及其对应的切分片段结果;在所述切分片段结果中提取出各个行业具有代表性的新特征词;将新特征词与所述新关键词结果表中的新关键词进行语义聚类和分类处理;根据处理结果输出具有行业代表性的新关键词。进一步的,所述计算每个切分片段的内聚度包括:获取每个切分片段的字符长度;对每个字符长度大于1的切分片段进行二切分得到所述切分片段对应的子切分片段;获取所述切分片段的出现频次、所述子切分片段的出现频次;根据所述切分片段的出现频次与所述子切分片段的出现频次的比值计算所述切分片段的内聚度。进一步的,所述新关键词结果表为hive表,所述获取所述切分片段的出现频次、所述子切分片段的出现频次,包括:通过hive表中的分布式计算api统计所述切分片段的出现频次、所述子切分片段的出现频次;所述分布式计算api包括select,groupby和join。进一步的,所述根据所述左右邻接字符计算每个切分片段的左右熵,包括:分布式遍历所述切分片段;统计每个切分片段的左右邻接字符的出现频次;根据所述左右邻接字符及其出现频次计算每个切分片段的左右熵。第二方面,本申请提供一种新关键词挖掘装置,包括:获取模块,用于获取互联网文本;提取模块,用于根据所述互联网文本枚举多个切分片段,同时提取所述切分片段在当前上下文中的左右邻接字符;第一计算模块,用于计算每个切分片段的内聚度;第二计算模块,用于根据所述左右邻接字符计算每个切分片段的左右熵;关联模块,用于将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表。第三方面,本申请提供一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如第一方面中任一项所述的新关键词挖掘方法。本申请的实施例提供的技术方案可以包括以下有益效果:本专利技术实施例提供的新关键词挖掘方法、装置及电子设备,通过根据互联网文本枚举多个切分片段,同时提取切分片段在当前上下文中的左右邻接字符,计算每个切分片段的内聚度,根据左右邻接字符计算每个切分片段的左右熵,将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表,可以从海量互联网文本数据中快速挖掘出新关键词,且挖掘结果更加准确。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。图1为本申请一个实施例提供的一种新关键词挖掘方法的流程图。图2为本申请另一个实施例提供的一种新关键词挖掘方法的流程图。图3为本申请另一个实施例提供的一种新关键词挖掘方法的流程图。图4为本申请一个实施例提供的一种新关键词挖掘装置的功能结构图。具体实施方式为使本申请的目的、技术方案和优点更加清楚,下面将对本申请的技术方案进行详细的描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本申请所保护的范围。图1为本申请一个实施例提供的新关键词挖掘方法的流程图,如图1所示,该新关键词挖掘方法包括:S11:获取互联网文本;S12:根据互联网文本枚举多个切分片段,同时提取切分片段在当前上下文中的左右邻接字符;S13:计算每个切分片段的内聚度;S14:根据左右邻接字符计算每个切分片段的左右熵;S15:将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表。传统的新关键词挖掘方法是通过收集近期互联网文本,在互联网文本集合中通过分词工具进行相关行本文档来自技高网...

【技术保护点】
1.一种新关键词挖掘方法,其特征在于,包括:/n获取互联网文本;/n根据所述互联网文本枚举多个切分片段,同时提取所述切分片段在当前上下文中的左右邻接字符;/n计算每个切分片段的内聚度;/n根据所述左右邻接字符计算每个切分片段的左右熵;/n将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表。/n

【技术特征摘要】
1.一种新关键词挖掘方法,其特征在于,包括:
获取互联网文本;
根据所述互联网文本枚举多个切分片段,同时提取所述切分片段在当前上下文中的左右邻接字符;
计算每个切分片段的内聚度;
根据所述左右邻接字符计算每个切分片段的左右熵;
将每个切分片段的内聚度和左右熵相关联,输出新关键词结果表。


2.根据权利要求1所述的新关键词挖掘方法,其特征在于,还包括:
对所述新关键词结果表中的新关键词进行修复。


3.根据权利要求2所述的新关键词挖掘方法,其特征在于,所述对所述新关键词结果表中的新关键词进行修复,包括:
设定左右熵差值阈值和字符长度阈值;
获取当前切分片段的左右熵差值和字符长度;
根据所述当前切分片段的左右熵差值和字符长度与所述设定左右熵差值阈值和字符长度阈值的关系识别出错误切分片段;
对所述错误切分片段进行修复。


4.根据权利要求3所述的新关键词挖掘方法,其特征在于,所述对所述错误切分片段进行修复,包括:
对所述错误切分片段进行子串切分得到子切分片段;
将每个子切分片段在所述新关键词结果表中进行关联查找;
若查找到对应新关键词则将所述错误切分片段替换为子切分片段;
和/或;
对所述错误切分片段进行串外接得到串外接切分片段;
将每个串外接切分片段在所述新关键词结果表中进行关联查找;
若查找到对应新关键词则将所述错误切分片段替换为串外接切分片段。


5.根据权利要求1~4任一项所述的新关键词挖掘方法,其特征在于,还包括:
获取有行业类别标注的互联网文本及其对应的切分片段结果;
在所述切分片段结果中提取出各个行业具有代表性的新特征词;
将新特征词与所述新关键词结果表中的新关键词进行语义聚类和分类处理;
根据处理结果输出具有行业代表...

【专利技术属性】
技术研发人员:唐亮赵伟
申请(专利权)人:时趣互动北京科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1