【技术实现步骤摘要】
一种5G移动业务产品名称识别方法及系统
本专利技术涉及自然语言处理领域,特别是涉及一种5G移动业务产品名称识别方法及系统。
技术介绍
随着移动互联网的发展,越来越多的设备接入到移动网络中,新的服务和应用层出不穷,全球移动宽带用户在2018年已经达到90亿,2020年,移动通信网络的容量相比2017年的网络容量上已经增长1000倍。移动通信服务质量已经成为通信行业发展水平评价的一个标准。为了提高移动通信服务质量,在用户群体中深度推广5G技术,需要基于移动5G套餐办理类来话文本,挖掘客户对移动业务产品的倾向度,作为客服人员营销推荐方式考察,并构建开口监控和话术识别推荐系统。因此,移动业务产品名称识别是开口监控和话术识别推荐系统的第一步。命名实体识别(NameEntityRecognition,NER)又称专名识别,是自然语言处理(NaturalLanguageProcessing,NLP)中的一项基础任务。命名实体一般指文本中具有特定意义或指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。命名实体识别已经开展了多年并且取得一定的成果。早期研究的主要在于基于字典和规则的传统识别,后来到传统机器学习方法,传统机器学习方法模型有隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场模型(ConditionalRandomField,CRF),CRF是目前中主流模型之一,优点在于其为 ...
【技术保护点】
1.一种5G移动业务产品名称识别方法,其特征在于,包括:/n获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;/n对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;/n获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;/n根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;/n利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;/n对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;/n利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;/n根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移 ...
【技术特征摘要】
1.一种5G移动业务产品名称识别方法,其特征在于,包括:
获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。
2.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值,具体包括:
根据所述最简移动业务产品集合确定所有元素的最小长度;
根据所述最小长度确定所述过滤阈值;
根据标准移动业务产品名称集确定所有元素的最大长度;
根据所述最大长度确定所述单元切割阈值;
对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。
3.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集,具体包括:
获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。
4.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,具体包括:
对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
根据所述字符特征向量构建字符特征向量字典;
根据所述构建字符特征向量字典,确定所述训练集的特征序列;
根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
根据所述的发射分数矩阵确定标注状态转移矩阵。
5.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,之后还包括:
利用所述测试集对所述双向LSTM+CRF模型进行测试。
6.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典,具体包括:
将所述移动业务产品名称识别结果集加入到Jieba分词库中,利用所述Jieba分词库对所述处理后的数据集进行分词,得到词集;
利用word2vec中的负采样CBOW模型,提取词集内各个词语之间的相关性;并根据所述相关性确定词...
【专利技术属性】
技术研发人员:杜俊笙,段亮,李忠斌,岳昆,
申请(专利权)人:云南大学,
类型:发明
国别省市:云南;53
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。