一种基于自然语言处理技术的营销活动投诉风险预测方法技术

技术编号:20919727 阅读:22 留言:0更新日期:2019-04-20 10:21
一种基于自然语言处理技术的营销活动投诉风险预测方法,包括:提取历史时间内所有投诉文本和营销活动文本,计算投诉文本和营销活动文本的相似度,以识别营销活动所对应的投诉文本,计算每项营销活动的万投比;选取多个万投比大于万投比高阈值的营销活动为正样本,多个万投比低于万投比低阈值的营销活动为负样本,训练基于卷积神经网络的营销文本分类模型;将待预测营销活动的文本指标输入训练后的营销文本分类模型,并根据模型输出的营销活动属于高投诉风险类别的概率来判断待预测的营销活动是否具有高投诉风险,如果是,则发布预警通知消息。本发明专利技术属于信息技术领域,能构建投诉信息与营销活动的对应关系,并实现对营销活动风险的准确预测。

A Risk Prediction Method for Marketing Complaints Based on Natural Language Processing Technology

A method for forecasting the risk of complaints in marketing activities based on natural language processing technology includes: extracting all the complaint texts and marketing activity texts in the historical period, calculating the similarity between the complaint texts and marketing activity texts, identifying the complaint texts corresponding to marketing activities, calculating the investment ratio of every marketing activity, and selecting marketing activities whose investment ratio exceeds the high threshold of investment ratio of ten thousand. With positive samples and negative samples, marketing activities with multi-million-investment ratio lower than the low threshold of million-investment ratio train the marketing text classification model based on convolution neural network; input the text indicators of the marketing activities to be predicted into the training marketing text classification model, and judge whether the marketing activities to be predicted have high risk of complaints according to the probability that the marketing activities output from the model belong to the category of high risk of complaints. High risk of complaint, and if so, issue early warning notifications. The invention belongs to the field of information technology, and can construct the corresponding relationship between complaint information and marketing activities, and realize accurate prediction of marketing activities risk.

【技术实现步骤摘要】
一种基于自然语言处理技术的营销活动投诉风险预测方法
本专利技术涉及一种基于自然语言处理技术的营销活动风险预测方法,属于信息

技术介绍
目前,营销活动策划与客户服务之间相对独立且存在认知盲区,表现为:营销策划人员重点关注市场发展,在营销策划时缺乏有效手段对营销活动带来的投诉风险进行评估,客服人员重点关注客户满意度,认为很多活动规则设置不合理导致客户投诉。但问题的关键在于,投诉工单数据以海量、不规则文本数据为主,很难识别导致投诉的具体营销活动,只能依赖低效的人工处理,从而投诉数据难以为营销活动策划提供闭环数据支撑;同时,目前营销活动从策划到执行,本身自成体系,缺乏从服务、投诉的角度对活动进行评估、优化。因此,如何构建投诉信息与营销活动的对应关系,并基于投诉信息来实现对营销活动风险的准确预测,已成为技术人员急需解决的技术问题,截至目前为止,还未发现有相关方案。
技术实现思路
有鉴于此,本专利技术的目的是提供一种基于自然语言处理技术的营销活动风险预测方法,能构建投诉信息与营销活动的对应关系,并基于投诉信息来实现对营销活动风险的准确预测。为了达到上述目的,本专利技术提供了一种基于自然语言处理技术的营销活动投诉风险预测方法,包括有:步骤一、提取一定历史时间周期内的所有投诉文本和营销活动文本,计算每个投诉文本和每个营销活动文本之间的相似度,以识别每项营销活动所对应的投诉文本,然后根据营销活动文本所对应的投诉文本数,计算每项营销活动的万投比;步骤二、从历史时间周期内的所有投诉文本和营销活动中,选取多个万投比大于万投比高阈值的营销活动为正样本,多个万投比低于万投比低阈值的营销活动为负样本,训练基于卷积神经网络的营销文本分类模型,营销文本分类模型的输入是每项营销活动的文本指标,输出是营销活动属于高投诉风险类别的概率;步骤三、将待预测的营销活动的文本指标输入训练后的营销文本分类模型,并根据营销文本分类模型输出的营销活动属于高投诉风险类别的概率来判断待预测的营销活动是否具有高投诉风险,如果是,则发布预警通知消息。与现有技术相比,本专利技术的有益效果是:本专利技术首先构建投诉信息与营销活动的对应关系,搭建活动策划与客户服务之间闭环数据支撑的桥梁,然后通过构建营销文本分类模型,从而能实现对营销活动风险的评估与管控;首先,基于自然语言处理技术计算投诉文本与营销活动的相似度,实现投诉信息与营销活动信息的融合,并首次提出了一种基于投诉文本和营销活动文本的共有词TF-IDF权重文本相似度的计算方法;其次,在实现投诉工单与营销活动的对应关系基础上,统计分析每个营销活动的万投比,将高万投比的活动作为营销文本分类模型的正样本,以营销活动为研究对象,提取活动描述、类型、活动配置的元素、参数、目标用户等信息作为模型输入,基于深度学习技术构建营销文本分类模型,并在其中还使用基于词、字符两种不同粒度的词-文本分类模型和字符-文本分类模型,通过对两个文本分类模型的输出特征进行融合与组合,最后输出营销活动属于高投诉风险类别的概率,从而能获得更好的分类效果,实现对营销活动风险的准确预测。附图说明图1是本专利技术一种基于自然语言处理技术的营销活动投诉风险预测方法。图2是图1步骤一的具体步骤流程图。图3是图1步骤二和三中,当将营销活动的文本指标输入营销文本分类模型时,营销文本分类模型对营销活动的文本指标的具体处理流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术作进一步的详细描述。如图1所示,本专利技术一种基于自然语言处理技术的营销活动投诉风险预测方法,包括有:步骤一、提取一定历史时间周期内的所有投诉文本和营销活动文本,计算每个投诉文本和每个营销活动文本之间的相似度,以识别每项营销活动所对应的投诉文本,然后根据营销活动文本所对应的投诉文本数,计算每项营销活动的万投比;步骤二、从历史时间周期内的所有投诉文本和营销活动中,选取多个万投比大于万投比高阈值的营销活动为正样本,多个万投比低于万投比低阈值的营销活动为负样本,训练基于卷积神经网络的营销文本分类模型,营销文本分类模型包括有输入层、卷积层、池化层和全连接层,营销文本分类模型的输入是每项营销活动的文本指标,输出是营销活动属于高投诉风险类别的概率,其中,万投比高阈值、万投比低阈值可以根据实际业务需要而设置;步骤三、将待预测的营销活动的文本指标输入训练后的营销文本分类模型,并根据营销文本分类模型输出的营销活动属于高投诉风险类别的概率来判断待预测的营销活动是否具有高投诉风险,如果是,则发布预警通知消息。如图2所示,步骤一可以进一步包括有:步骤11、从每个投诉工单中提取投诉内容作为对应的投诉文本;步骤12、将每项营销活动的营销活动名称、营销活动描述、营销活动主题、营销活动渠道这四个文本字段合成对应的营销活动文本;步骤13、将投诉文本、营销活动文本合并生成语料库,并构建自有词典与停用词,分别对每个投诉文本和每个营销活动文本进行分词处理;步骤14、计算每个投诉文本和每个营销活动文本的共有词相似度,投诉文本和营销活动文本的共有词相似度是两个文本共有词的总字符数除以两个文本中的最长文本字符数;步骤15、计算每个投诉文本和每个营销活动文本的Jaccard相似度,投诉文本和营销活动文本的Jaccard相似度是两个文本之间词集合的交集和并集的比值;步骤16、计算每个投诉文本和每个营销活动文本的共有词TF-IDF权重文本相似度;TF-IDF的核心思想是:在一篇文章中,某个词语的重要性与该词语在这篇文章中出现的次数成正相关,同时与整个语料库中出现该词语的文章数成负相关。其中,词频=某个词在文章中出现的总次数;TF=某个词在文章中出现的总次数/文章的总词数;IDF=log(词料库的文档总数/包含该词的文档数+1);TF-IDF=TF*IDF。步骤16中,投诉文本和营销活动文本的共有词TF-IDF权重文本相似度是两文本共有词的TF*IDF权重之和与两文本所有词的TF*IDF权重之和的比值;步骤17、计算每个投诉文本和每个营销活动文本的余弦相似度:可以先通过基于Skip-gram模型的word2vec算法,将投诉文本和营销活动文本中的每个词转化成词向量,然后使用余弦相似度算法计算投诉文本和营销活动文本之间的向量相似度作为投诉文本和营销活动文本的余弦相似度;步骤18、根据投诉文本和营销活动文本的共有词相似度、Jaccard相似度、共有词TF-IDF权重文本相似度、余弦相似度,计算每个投诉文本和营销活动文本之间的相似度:其中,s1、s2、s3、s4分别是投诉文本和营销活动文本的共有词相似度、Jaccard相似度、共有词TF-IDF权重文本相似度、余弦相似度,wi是si对应的权重,是si与共有词相似度、Jaccard相似度、共有词TF-IDF权重文本相似度、余弦相似度的协方差之和,cov(si,sj)是si与sj的协方差,di是历史时间周期内的所有营销活动文本和投诉文本之间的si的方差;步骤19、从每个营销活动文本和所有投诉文本之间的相似度中挑选出大于相似度阈值的投诉文本,所挑选出的投诉文本即是该营销活动对应的投诉文本,然后计算每项营销活动的万投比,营销活动的万投比是营销活动所对应的投诉文本数和营销活动订购次数的比值。可以从营本文档来自技高网...

【技术保护点】
1.一种基于自然语言处理技术的营销活动投诉风险预测方法,其特征在于,包括有:步骤一、提取一定历史时间周期内的所有投诉文本和营销活动文本,计算每个投诉文本和每个营销活动文本之间的相似度,以识别每项营销活动所对应的投诉文本,然后根据营销活动文本所对应的投诉文本数,计算每项营销活动的万投比;步骤二、从历史时间周期内的所有投诉文本和营销活动中,选取多个万投比大于万投比高阈值的营销活动为正样本,多个万投比低于万投比低阈值的营销活动为负样本,训练基于卷积神经网络的营销文本分类模型,营销文本分类模型的输入是每项营销活动的文本指标,输出是营销活动属于高投诉风险类别的概率;步骤三、将待预测的营销活动的文本指标输入训练后的营销文本分类模型,并根据营销文本分类模型输出的营销活动属于高投诉风险类别的概率来判断待预测的营销活动是否具有高投诉风险,如果是,则发布预警通知消息。

【技术特征摘要】
1.一种基于自然语言处理技术的营销活动投诉风险预测方法,其特征在于,包括有:步骤一、提取一定历史时间周期内的所有投诉文本和营销活动文本,计算每个投诉文本和每个营销活动文本之间的相似度,以识别每项营销活动所对应的投诉文本,然后根据营销活动文本所对应的投诉文本数,计算每项营销活动的万投比;步骤二、从历史时间周期内的所有投诉文本和营销活动中,选取多个万投比大于万投比高阈值的营销活动为正样本,多个万投比低于万投比低阈值的营销活动为负样本,训练基于卷积神经网络的营销文本分类模型,营销文本分类模型的输入是每项营销活动的文本指标,输出是营销活动属于高投诉风险类别的概率;步骤三、将待预测的营销活动的文本指标输入训练后的营销文本分类模型,并根据营销文本分类模型输出的营销活动属于高投诉风险类别的概率来判断待预测的营销活动是否具有高投诉风险,如果是,则发布预警通知消息。2.根据权利要求1所述的方法,其特征在于,步骤一进一步包括有:步骤11、从每个投诉工单中提取投诉内容作为对应的投诉文本;步骤12、将每项营销活动的营销活动名称、营销活动描述、营销活动主题、营销活动渠道这四个文本字段合成对应的营销活动文本;步骤13、将投诉文本、营销活动文本合并生成语料库,并构建自有词典与停用词,分别对每个投诉文本和每个营销活动文本进行分词处理;步骤14、计算每个投诉文本和每个营销活动文本的共有词相似度,投诉文本和营销活动文本的共有词相似度是两个文本共有词的总字符数除以两个文本中的最长文本字符数;步骤15、计算每个投诉文本和每个营销活动文本的Jaccard相似度,投诉文本和营销活动文本的Jaccard相似度是两个文本之间词集合的交集和并集的比值;步骤16、计算每个投诉文本和每个营销活动文本的共有词TF-IDF权重文本相似度,投诉文本和营销活动文本的共有词TF-IDF权重文本相似度是两文本共有词的TF*IDF权重之和与两文本所有词的TF*IDF权重之和的比值;步骤17、计算每个投诉文本和每个营销活动文本的余弦相似度:先通过基于Skip-gram模型的word2vec算法,将投诉文本和营销活动文本中的每个词转化成词向量,然后使用余弦相似度算法计算投诉文本和营销活动文本之间的向量相似度作为投诉文本和营销活动文本...

【专利技术属性】
技术研发人员:王彦青严莲过临朋白新宇张少杰彭刚王宏满朱峰
申请(专利权)人:杭州东信北邮信息技术有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1