基于企微讨论组的用户话题标签生成方法和系统技术方案

技术编号:29938317 阅读:11 留言:0更新日期:2021-09-04 19:18
本申请涉及一种基于企微讨论组的用户话题标签生成方法及系统,其中,该方法包括:词向量训练步骤,根据行业类型预设不同的讨论标签,并据此筛选得到对应外部词向量,所述外部词向量结合会话存档训练词向量;优先词获取步骤,计算所述词向量与所述讨论标签的相似度,并将满足预设条件的所述词向量加入优先词列表;会话打标步骤,根据优先词与预设停用词,利用分词系统扫描会话存档并对所述会话存档进行打标;话题标签生成步骤,对打标结果进行处理后,获得用户话题标签。通过本申请针对海量用户会话信息,快速构建用户讨论的话题标签。快速构建用户讨论的话题标签。快速构建用户讨论的话题标签。

【技术实现步骤摘要】
基于企微讨论组的用户话题标签生成方法和系统


[0001]本申请涉及数据处理
,特别是涉及基于企微讨论组的用户话题标签生成方法和系统。

技术介绍

[0002]在toC端的企微服务中,公司运营人员通常使用企业微信,添加客户进企微讨论组,开展营销活动。在此背景下,运营人员可以通过企微讨论组,通过对用户话题回应、宣传自身产品功效等方式进行主动营销。此外,用户亦可以在企微讨论组进行日常话题等讨论。
[0003]对于用户在企微讨论组中讨论的文本信息,运营人员可以使用企微的会话存档功能进行记录。正确识别用户讨论的话题,可以帮助运营人员构建用户标签,并基于此标签,对不同类别用户进行营销工作,或者发现用户讨论话题,辅助构建运营素材。
[0004]传统基于讨论组信息构建用户标签的方式,通常是运营人员进行人工查阅聊天信息并进行打标。但这种方式存在以下瓶颈:
[0005]当企微会话存档数据达到一定量级时(例如多条数据、多个讨论组等),人工打标的方式进展缓慢;同时,不同运营人员的用户打标标准不一,且无法判断用户讨论的话题是否为较流行话题,从而导致可能打出的标签为长尾数据(例如一个标签仅命中一人),难以帮助运营人员开展后续的营销活动。
[0006]目前针对相关技术中人工打标进展缓慢的问题,尚未提出有效的解决方案。

技术实现思路

[0007]本申请实施例提供了一种基于企微讨论组的用户话题标签生成方法和系统,以至少解决相关技术中人工打标缓慢的问题。
[0008]第一方面,本申请实施例提供了一种基于企微讨论组的用户话题标签生成方法,包括以下步骤:
[0009]词向量训练步骤,根据行业类型预设不同的讨论标签,并据此筛选得到对应外部词向量,外部词向量结合会话存档训练词向量;
[0010]优先词获取步骤,计算词向量与讨论标签的相似度,并将满足预设条件的词向量加入优先词列表;
[0011]会话打标步骤,根据优先词与预设停用词,利用分词系统扫描会话存档并对会话存档进行打标;
[0012]话题标签生成步骤,对打标结果进行处理后,获得用户话题标签。
[0013]在其中一些实施例中,词向量训练步骤还包括:
[0014]外部词向量筛选步骤,根据腾讯AI Lab获得腾讯AI LAb词向量,计算腾讯AI LAb词向量与讨论标签对应向量的欧氏距离,并据此筛选得到外部词向量;
[0015]词向量输出步骤,对会话存档进行预处理得到对应的one

hot向量,将one

hot向量和外部词向量输入至Word2vec模型并输出词向量。
[0016]在其中一些实施例中,优先词获取步骤具体包括:
[0017]通过以下公式计算词向量与讨论标签对应的标签词向量的余弦相似度,
[0018][0019]其中,A、B分别代表词向量和讨论标签对应的词向量,n代表总维度,i表示第i个维度,
[0020]当余弦相似度大于预设阈值时,将词向量对应的分词加入优先词列表。
[0021]在其中一些实施例中,会话打标步骤具体包括:
[0022]会话存档扫描步骤,将优先词和预设停用词加入jieba分词系统,利用jieba分词系统扫描会话存档;
[0023]信息输出步骤,根据预设停用词将会话存档中的对应分词删除,并输出会话存档的剩余部分中命中的对应优先词、讨论标签及发言用户。
[0024]在其中一些实施例中,话题标签生成步骤具体包括:
[0025]信息去重步骤,将信息输出步骤中输出的对应优先词和发言用户进行去重后,得到命中优先词以及对应发言用户数量;
[0026]低频数据清洗步骤,统计命中优先词和发言用户数量的方差和均值,并利用3*sigma原则进行过滤;
[0027]话题标签生成步骤,根据过滤结果输出发言用户

讨论标签的信息,并据此获得用户话题标签。
[0028]在其中一些实施例中,低频数据清洗步骤中的过滤条件还包括:
[0029]当命中优先词的对应发言用户数量小于设定值时,则将该命中优先词进行过滤,其中,所述设定值=均值

3*标准差。
[0030]第二方面,本申请实施例提供了一种基于企微讨论组的用户话题标签生成系统,应用第一方面的用户话题标签生成方法,包括:
[0031]词向量训练模块,根据行业类型预设不同的讨论标签,并据此筛选得到对应外部词向量,外部词向量结合会话存档训练词向量;
[0032]优先词获取模块,计算词向量与讨论标签的相似度,并将满足预设条件的词向量加入优先词列表;
[0033]会话打标模块,会话打标步骤,根据优先词与预设停用词,利用分词系统扫描会话存档并对会话存档进行打标;
[0034]话题标签生成模块,对打标结果进行处理后,获得用户话题标签。
[0035]在其中一些实施例中,话题标签生成模块包括:
[0036]信息去重单元,接收会话打标模块输出的对应优先词和发言用户并对其进行去重,得到命中优先词以及对应发言用户数量;
[0037]低频数据清洗单元,统计命中优先词和发言用户数量的方差和均值,并利用3*sigma原则进行过滤;
[0038]话题标签生成单元,根据过滤结果输出发言用户

讨论标签的信息,并据此获得用户话题标签。
[0039]第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于企微讨论组的用户话题标签生成方法。
[0040]第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于企微讨论组的用户话题标签生成方法。
[0041]相比于相关技术,本申请实施例提供的涉及基于企微讨论组的用户话题标签生成方法和系统,本申请实施例可应用于数据处理
,也可以应用于数据挖掘
,通过本专利,可以面对海量用户会话信息,快速构建用户讨论的话题标签,极大地帮助了运营人员对用户打标的速度与准确度,为下游营销活动进行准备。
[0042]本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
[0043]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0044]图1是根据本申请实施例的基于企微讨论组的用户话题标签生成方法的流程图;
[0045]图2是根据本申请实施例的词向量训练步骤的流程图;
[0046]图3是根据本申请实施例的会话打标步骤的流程图;
[0047]图4是根据本申请实施例的会话打标步骤的流程图;
[0048]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于企微讨论组的用户话题标签生成方法,其特征在于,包括以下步骤:词向量训练步骤,根据行业类型预设不同的讨论标签,并据此筛选得到对应外部词向量,所述外部词向量结合会话存档训练词向量;优先词获取步骤,计算所述词向量与所述讨论标签的相似度,并将满足预设条件的所述词向量加入优先词列表;会话打标步骤,根据优先词与预设停用词,利用分词系统扫描会话存档并对所述会话存档进行打标;话题标签生成步骤,对打标结果进行处理后,获得用户话题标签。2.根据权利要求1所述的基于企微讨论组的用户话题标签生成方法,其特征在于,所述词向量训练步骤还包括:外部词向量筛选步骤,根据腾讯AI Lab获得腾讯AI LAb词向量,计算所述腾讯AI LAb词向量与所述讨论标签对应向量的欧氏距离,并据此筛选得到所述外部词向量;词向量输出步骤,对所述会话存档进行预处理得到对应的one

hot向量,将所述one

hot向量和所述外部词向量输入至Word2vec模型并输出所述词向量。3.根据权利要求1所述的用户话题标签生成方法,其特征在于,所述优先词获取步骤具体包括:通过以下公式计算所述词向量与所述讨论标签对应的标签词向量的余弦相似度,其中,A、B分别代表所述词向量和所述讨论标签对应的词向量,n代表总维度,i表示第i个维度,当所述余弦相似度大于预设阈值时,将所述词向量对应的分词加入所述优先词列表。4.根据权利要求1所述的用户话题标签生成方法,其特征在于,所述会话打标步骤具体包括:会话存档扫描步骤,将所述优先词和所述预设停用词加入jieba分词系统,利用所述jieba分词系统扫描所述会话存档;信息输出步骤,根据所述预设停用词将所述会话存档中的对应分词删除,并输出所述会话存档的剩余部分中命中的对应所述优先词、讨论标签及发言用户。5.根据权利要求1所述的用户话题标签生成方法,其特征在于,所述话题标签生成步骤具体包括:信息去重步骤,将所述信息输出步骤中输出的对应所述优先词和所述发言用户进行去重后,得到命中优先词以及对应发言用户数量;低频数据...

【专利技术属性】
技术研发人员:黄楷梁新敏陈羲
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1