一种基于统计学习及语义融合的电信行业新词挖掘方法技术

技术编号:36982209 阅读:16 留言:0更新日期:2023-03-25 18:01
本发明专利技术提供了新词挖掘技术领域的一种基于统计学习及语义融合的电信行业新词挖掘方法,包括如下步骤:步骤S10、基于多维度采集用户数据;步骤S20、对各所述用户数据进行数据清洗得到用户数据集;步骤S30、基于所述用户数据集构建新词候选集;步骤S40、基于统计学习以及语义融合对所述新词候选集中的候选词进行打分,基于打分结果对所述新词候选集中的候选词进行筛选;步骤S50、对所述新词候选集中的各候选词进行过滤,得到包含若干个新词的新词集,完成新词挖掘。本发明专利技术的优点在于:极大的提升了新词挖掘的准确性。了新词挖掘的准确性。了新词挖掘的准确性。

【技术实现步骤摘要】
一种基于统计学习及语义融合的电信行业新词挖掘方法


[0001]本专利技术涉及新词挖掘
,特别指一种基于统计学习及语义融合的电信行业新词挖掘方法。

技术介绍

[0002]随着电信行业的迅速发展,移动通信用户的增长已经进入到缓慢期,增幅持续放缓。新发展的客户中,存在较多异常客户,即存在三无、极低、纯SP等客户,导致“增量不增收”。因此,分析用户行为,提高用户粘性,避免用户流失,吸引潜在用户,在激烈的市场竞争中,充分占领市场是运营商成功的关键。随着运营商用户的增长,其CBSS和BSS等业务系统已积累海量的数据,后台支撑系统越来越复杂,与此同时管理这些数据需要耗费巨大的资源;更重要的是,由原有的粗放式业务增长,进入到数字业务及全业务为主要产品的长尾市场竞争,而庞大的支撑系统已经由核心动力转化为一定的包袱。在信息时代,为了让这些数据变成有价值的宝藏,需要从这些数据中挖掘更深层次价值。
[0003]随着移动互联网的到来以及云计算、物联网等产业的逐渐兴起,社会中众多领域都产生海量数据,即充斥着来自不同行业、不同系统等种类繁多的数据。尤其是根据计算机的摩尔定律,未来数据的存储和处理的成本将持续降低,也促使数据持续增长,而数据资源作为未来的重要资产,将为未来社会生产的发展和创新提供动力。电信行业的数据具有体量大、种类多、精确、真实等特点,因为运营商在长期的网络经营过程中,产生了复杂的客户群体和丰硕的行业生态,这些生态给运营商带来了巨大的数据资源优势。
[0004]用户数据是运营商了解用户心声最直接有效的方式,用户可以通过投诉热线、投诉短信、运营商官方网站等方式对运营商的各项服务进行投诉,通过这些用户数据,运营商能够了解用户的需求与不满,进而改善自身服务,提高用户的满意度,最终争取到更多的用户。来自各渠道的用户数据最终都会以文本的形式存入运营商的数据库,对于数据量较少的情况,运营商可以组织客服对用户数据进行人工分析来了解用户的不满及需求,可是由于运营商的用户基数巨大,运营商每天都会收到来自各渠道数以万计的用户数据,如此庞大且迅速增长的用户数据显然无法通过人工审核,因此产生了快速响应用户数据中反映的问题的需求。
[0005]为了定位用户数据中反应的问题,需要使用词典对用户数据进行分词;然而,随着大量运营商服务系统的各类用户数据不断生成,随之而来的,是大量领域内专业词汇、新词的产生,分词工具利用词典对用户数据进行分词时,对于新词的识别准确率较差,因此产生了挖掘新词并添加到对应词典的需求。但是,由于中文新词往往存在语法多变,规则混乱等特点,导致新词挖掘的准确性欠佳,而新词挖掘的准确性直接影响分词的准确性,进而影响后续的文本处理任务。
[0006]因此,如何提供一种基于统计学习及语义融合的电信行业新词挖掘方法,实现提升新词挖掘的准确性,成为一个亟待解决的技术问题。

技术实现思路

[0007]本专利技术要解决的技术问题,在于提供一种基于统计学习及语义融合的电信行业新词挖掘方法,实现提升新词挖掘的准确性。
[0008]本专利技术是这样实现的:一种基于统计学习及语义融合的电信行业新词挖掘方法,包括如下步骤:
[0009]步骤S10、基于多维度采集用户数据;
[0010]步骤S20、对各所述用户数据进行数据清洗得到用户数据集;
[0011]步骤S30、基于所述用户数据集构建新词候选集;
[0012]步骤S40、基于统计学习以及语义融合对所述新词候选集中的候选词进行打分,基于打分结果对所述新词候选集中的候选词进行筛选;
[0013]步骤S50、对所述新词候选集中的各候选词进行过滤,得到包含若干个新词的新词集,完成新词挖掘。
[0014]进一步地,所述步骤S10具体为:
[0015]基于时间维度、来源维度、区域维度以及用户维度采集大量的用户数据。
[0016]进一步地,所述步骤S20具体为:
[0017]对各所述用户数据进行噪声数据剔除、重复数据合并、无关标点符号剔除的数据清洗,基于数据清洗后的各所述用户数据构建用户数据集。
[0018]进一步地,所述步骤S30具体为:
[0019]设定一最大词长,通过n

gram滑动窗口基于所述最大词长对用户数据集中的用户数据进行切分,得到若干个候选词,基于预设的停用词对各所述候选词进行过滤后得到新词候选集。
[0020]进一步地,所述步骤S40具体包括:
[0021]步骤S41、基于统计学习对所述新词候选集中的候选词进行有效性计算,得到向量增强互信息以及左右邻接熵;
[0022]步骤S42、将所述新词候选集中的各候选词转换为字向量;
[0023]步骤S43、基于所述向量增强互信息、左右邻接熵以及字向量对新词候选集中的候选词进行打分;
[0024]步骤S44、基于打分结果对所述新词候选集中的候选词进行筛选后,再基于词频对各所述候选词进行筛选。
[0025]进一步地,所述步骤S41中,所述向量增强互信息的计算公式如下:
[0026][0027]其中,MI(w)表示向量增强互信息;c
i
表示第i个候选词;n表示候选词总数量;w表示随机字符片段;p(c1c2...c
i
)、p(C
i+1
C
i+2
...c
n
)和p(w)分别表示c1c2...c
i
、c
i+1
c
i+2
...c
n
和w在新词候选集中出现的概率;α表示平衡互信息和语义相似性的超参数;SimCos表示候选词之间的余弦相似度;
[0028]所述左右邻接熵的计算公式如下:
[0029][0030][0031][0032][0033][0034]其中,BE(w)表示左右邻接熵;H
r
(w)表示右邻接熵;H
l
(w)表示左邻接熵;表示右邻接熵的调节权重;表示左邻接熵的调节权重;l
i
表示第i个左邻接候选词;r
i
表示第i个右邻接候选词;p(l
i
)表示l
i
出现的概率;p(r
i
)表示r
i
出现的概率;N(l
i
)表示l
i
在r
i
左侧出现的次数;N(r
i
)表示r
i
在l
i
右侧出现的次数。
[0035]进一步地,所述步骤S42具体为:
[0036]通过BERT模型将所述新词候选集中的各候选词转换为字向量。
[0037]进一步地,所述步骤S43中,所述候选词的打分公式如下:
[0038]Score=σ(a*N(MI(w)+b*N(BE(w));
[0039]其中,Score表示打分结果;σ()表示sigmoid函数;a表示向量增强本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于统计学习及语义融合的电信行业新词挖掘方法,其特征在于:包括如下步骤:步骤S10、基于多维度采集用户数据;步骤S20、对各所述用户数据进行数据清洗得到用户数据集;步骤S30、基于所述用户数据集构建新词候选集;步骤S40、基于统计学习以及语义融合对所述新词候选集中的候选词进行打分,基于打分结果对所述新词候选集中的候选词进行筛选;步骤S50、对所述新词候选集中的各候选词进行过滤,得到包含若干个新词的新词集,完成新词挖掘。2.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法,其特征在于:所述步骤S10具体为:基于时间维度、来源维度、区域维度以及用户维度采集大量的用户数据。3.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法,其特征在于:所述步骤S20具体为:对各所述用户数据进行噪声数据剔除、重复数据合并、无关标点符号剔除的数据清洗,基于数据清洗后的各所述用户数据构建用户数据集。4.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法,其特征在于:所述步骤S30具体为:设定一最大词长,通过n

gram滑动窗口基于所述最大词长对用户数据集中的用户数据进行切分,得到若干个候选词,基于预设的停用词对各所述候选词进行过滤后得到新词候选集。5.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法,其特征在于:所述步骤S40具体包括:步骤S41、基于统计学习对所述新词候选集中的候选词进行有效性计算,得到向量增强互信息以及左右邻接熵;步骤S42、将所述新词候选集中的各候选词转换为字向量;步骤S43、基于所述向量增强互信息、左右邻接熵以及字向量对新词候选集中的候选词进行打分;步骤S44、基于打分结果对所述新词候选集中的候选词进行筛选后,再基于词频对各所述候选词进行筛选。6.如权利要求5所述的一种基于统计学习及语义融合的电信行业新词挖掘方法,其特征在于:所述步骤S41中,所述向量增强互信息的计算公式如下:其中,MI(w)表示向量增强互信息;c
i
表示第i个候选词;n表示候选词总数量;w表示随机字符片段;p(c1c2…
c
i
)、p(c
i+1
c
i+2

c
n
)和p(w)分别表示c1c2…
c<...

【专利技术属性】
技术研发人员:焦洪林王雷朱坚赵庆勇
申请(专利权)人:福建新大陆软件工程有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1