一种基于统计学习及语义融合的电信行业新词挖掘方法技术

技术编号：36982209 阅读：16 留言：0更新日期：2023-03-25 18:01

本发明专利技术提供了新词挖掘技术领域的一种基于统计学习及语义融合的电信行业新词挖掘方法，包括如下步骤：步骤S10、基于多维度采集用户数据；步骤S20、对各所述用户数据进行数据清洗得到用户数据集；步骤S30、基于所述用户数据集构建新词候选集；步骤S40、基于统计学习以及语义融合对所述新词候选集中的候选词进行打分，基于打分结果对所述新词候选集中的候选词进行筛选；步骤S50、对所述新词候选集中的各候选词进行过滤，得到包含若干个新词的新词集，完成新词挖掘。本发明专利技术的优点在于：极大的提升了新词挖掘的准确性。了新词挖掘的准确性。了新词挖掘的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于统计学习及语义融合的电信行业新词挖掘方法

[0001]本专利技术涉及新词挖掘
，特别指一种基于统计学习及语义融合的电信行业新词挖掘方法。

技术介绍

[0002]随着电信行业的迅速发展，移动通信用户的增长已经进入到缓慢期，增幅持续放缓。新发展的客户中，存在较多异常客户，即存在三无、极低、纯SP等客户，导致“增量不增收”。因此，分析用户行为，提高用户粘性，避免用户流失，吸引潜在用户，在激烈的市场竞争中，充分占领市场是运营商成功的关键。随着运营商用户的增长，其CBSS和BSS等业务系统已积累海量的数据，后台支撑系统越来越复杂，与此同时管理这些数据需要耗费巨大的资源；更重要的是，由原有的粗放式业务增长，进入到数字业务及全业务为主要产品的长尾市场竞争，而庞大的支撑系统已经由核心动力转化为一定的包袱。在信息时代，为了让这些数据变成有价值的宝藏，需要从这些数据中挖掘更深层次价值。
[0003]随着移动互联网的到来以及云计算、物联网等产业的逐渐兴起，社会中众多领域都产生海量数据，即充斥着来自不同行业、不同系统等种类繁多的数据。尤其是根据计算机的摩尔定律，未来数据的存储和处理的成本将持续降低，也促使数据持续增长，而数据资源作为未来的重要资产，将为未来社会生产的发展和创新提供动力。电信行业的数据具有体量大、种类多、精确、真实等特点，因为运营商在长期的网络经营过程中，产生了复杂的客户群体和丰硕的行业生态，这些生态给运营商带来了巨大的数据资源优势。
[0004]用户数据是运营商了解用户心声最直接有效的方式，用户...

【技术保护点】

【技术特征摘要】
1.一种基于统计学习及语义融合的电信行业新词挖掘方法，其特征在于：包括如下步骤：步骤S10、基于多维度采集用户数据；步骤S20、对各所述用户数据进行数据清洗得到用户数据集；步骤S30、基于所述用户数据集构建新词候选集；步骤S40、基于统计学习以及语义融合对所述新词候选集中的候选词进行打分，基于打分结果对所述新词候选集中的候选词进行筛选；步骤S50、对所述新词候选集中的各候选词进行过滤，得到包含若干个新词的新词集，完成新词挖掘。2.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法，其特征在于：所述步骤S10具体为：基于时间维度、来源维度、区域维度以及用户维度采集大量的用户数据。3.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法，其特征在于：所述步骤S20具体为：对各所述用户数据进行噪声数据剔除、重复数据合并、无关标点符号剔除的数据清洗，基于数据清洗后的各所述用户数据构建用户数据集。4.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法，其特征在于：所述步骤S30具体为：设定一最大词长，通过n
‑
gram滑动窗口基于所述最大词长对用户数据集中的用户数据进行切分，得到若干个候选词，基于预设的停用词对各所述候选词进行过滤后得到新词候选集。5.如权利要求1所述的一种基于统计学习及语义融合的电信行业新词挖掘方法，其特征在于：所述步骤S40具体包括：步骤S41、基于统计学习对所述新词候选集中的候选词进行有效性计算，得到向量增强互信息以及左右邻接熵；步骤S42、将所述新词候选集中的各候选词转换为字向量；步骤S43、基于所述向量增强互信息、左右邻接熵以及字向量对新词候选集中的候选词进行打分；步骤S44、基于打分结果对所述新词候选集中的候选词进行筛选后，再基于词频对各所述候选词进行筛选。6.如权利要求5所述的一种基于统计学习及语义融合的电信行业新词挖掘方法，其特征在于：所述步骤S41中，所述向量增强互信息的计算公式如下：其中，MI(w)表示向量增强互信息；c
i
表示第i个候选词；n表示候选词总数量；w表示随机字符片段；p(c1c2…
c
i
)、p(c
i+1
c
i+2
…
c
n
)和p(w)分别表示c1c2…
c<...

【专利技术属性】
技术研发人员：焦洪林，王雷，朱坚，赵庆勇，
申请(专利权)人：福建新大陆软件工程有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人