当前位置: 首页 > 专利查询>云南大学专利>正文

一种5G移动业务产品名称识别方法及系统技术方案

技术编号:29675095 阅读:21 留言:0更新日期:2021-08-13 21:57
本发明专利技术涉及一种5G移动业务产品名称识别方法及系统。该方法包括获取5G套餐办理类的通话文本;对通话内容进行预处理,构建单元化数据集;对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;根据标准移动业务产品名称集确定过滤阈值;根据最简移动业务产品集合确定单元切割阈值;利用过滤阈值、单元切割阈值对单元化数据集进行过滤以及切割;对处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;利用训练集训练双向LSTM+CRF模型;根据处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;构建移动业务产品名称字典;本发明专利技术能够高效率地进行移动业务产品名称识别。

【技术实现步骤摘要】
一种5G移动业务产品名称识别方法及系统
本专利技术涉及自然语言处理领域,特别是涉及一种5G移动业务产品名称识别方法及系统。
技术介绍
随着移动互联网的发展,越来越多的设备接入到移动网络中,新的服务和应用层出不穷,全球移动宽带用户在2018年已经达到90亿,2020年,移动通信网络的容量相比2017年的网络容量上已经增长1000倍。移动通信服务质量已经成为通信行业发展水平评价的一个标准。为了提高移动通信服务质量,在用户群体中深度推广5G技术,需要基于移动5G套餐办理类来话文本,挖掘客户对移动业务产品的倾向度,作为客服人员营销推荐方式考察,并构建开口监控和话术识别推荐系统。因此,移动业务产品名称识别是开口监控和话术识别推荐系统的第一步。命名实体识别(NameEntityRecognition,NER)又称专名识别,是自然语言处理(NaturalLanguageProcessing,NLP)中的一项基础任务。命名实体一般指文本中具有特定意义或指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。NER系统就是从非结构化的输入文本中抽取出上述实体,并且可以按照业务需求识别出更多类别的实体。命名实体识别已经开展了多年并且取得一定的成果。早期研究的主要在于基于字典和规则的传统识别,后来到传统机器学习方法,传统机器学习方法模型有隐马尔可夫模型(HiddenMarkovModel,HMM)、条件随机场模型(ConditionalRandomField,CRF),CRF是目前中主流模型之一,优点在于其为一个位置进行标注的过程中可以利用丰富的内部及上下文特征信息,但是只适用于数据量小的场景,并且过于依赖人工标注。近年来,深度学习和半监督学习成为人工智能领域的热潮,递归神经网络(RecurrentNeuralNetwork,RNN)和卷积神经网络(ConvolutionalNeuralNetwork,CNN)也逐渐成为命名实体识别的主流模型,它们主要处理方式类似,将词或字从离散独热编码表示,映射到低维空间中,成为稠密的特征嵌入,随后将句子的特征嵌入序列输入到RNN或CNN中,用神经网络自动提取特征,然后经过归一化函数(Softmax)来预测每个词或字的标签。但是,基于RNN或者基于CNN方法使得模型的训练成为一个端到端的过程,对参数设置依赖大,模型可解释性差。此外,这种方法的一个缺点是对每个词或字打标签的过程是独立的进行,不能直接利用上文已经预测的标签(只能靠隐含状态传递上文信息),进而导致预测出的标签序列可能是无效的。移动业务产品名称识别,属于命名实体识别领域的技术,应用在移动业务场景下。现有的数据集为移动5G套餐办理类来话文本,数据集容量大,且存在来话记录不完整、移动业务产品名称占数据集总体比重低等文本质量不高的问题。基于CRF的移动业务产品名称识别模型依赖人工标注,对现有数据未涵盖的移动业务产品名称识别效果低;基于RNN的移动业务产品名称识别模型,只通过特征学习识别移动业务产品名称,但无法高效地利用上下文信息,导致识别的准确率低。
技术实现思路
本专利技术的目的是提供一种5G移动业务产品名称识别方法及系统,能够高效率地进行移动业务产品名称识别。为实现上述目的,本专利技术提供了如下方案:一种5G移动业务产品名称识别方法,包括:获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。可选地,所述根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值,具体包括:根据所述最简移动业务产品集合确定所有元素的最小长度;根据所述最小长度确定所述过滤阈值;根据标准移动业务产品名称集确定所有元素的最大长度;根据所述最大长度确定所述单元切割阈值;对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。可选地,所述利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集,具体包括:获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。可选地,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,具体包括:对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;根据所述字符特征向量构建字符特征向量字典;根据所述构建字符特征向量字典,确定所述训练集的特征序列;根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;根据所述的发射分数矩阵确定标注状态转移矩阵。可选地,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,之后还包括:利用所述测试集对所述双向LSTM+CRF模型进行测试。可选地,所述根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典,具体包括:将本文档来自技高网
...

【技术保护点】
1.一种5G移动业务产品名称识别方法,其特征在于,包括:/n获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;/n对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;/n获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;/n根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;/n利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;/n对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;/n利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;/n根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。/n...

【技术特征摘要】
1.一种5G移动业务产品名称识别方法,其特征在于,包括:
获取5G套餐办理类的通话文本;所述通话文本包括:通话内容、通话流水号以及文本类型;
对所述通话内容进行预处理,构建单元化数据集;所述预处理包括:删除标记号以及数据分割;
获取标准移动业务产品名称集;并对标准移动业务产品名称集进行口语化处理,构建最简移动业务产品集合;所述标准移动业务产品名称集为基于移动官方标准制定名称;
根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值;
利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集;
对所述处理后的数据集进行标注,并随机抽样,进而根据随机抽样的数据集确定训练集和测试集;
利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型;
根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典;所述构建移动业务产品名称字典的字典键为标准移动业务产品名称集中的元素,字典值为移动业务产品名称识别结果集。


2.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述根据所述最简移动业务产品集合确定过滤阈值;根据所述标准移动业务产品名称集确定单元切割阈值,具体包括:
根据所述最简移动业务产品集合确定所有元素的最小长度;
根据所述最小长度确定所述过滤阈值;
根据标准移动业务产品名称集确定所有元素的最大长度;
根据所述最大长度确定所述单元切割阈值;
对所述单元化数据集进行抽样,并利用抽样后的数据集对所述过滤阈值以及所述单元切割阈值进行校验和固定。


3.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述过滤阈值、所述单元切割阈值对所述单元化数据集进行过滤以及切割,确定处理后的数据集,具体包括:
获取所述单元化数据集中第i单元的数据变量以及对应的变量长度;
判断所述第i单元的数据变量的变量长度与所述过滤阈值、所述单元切割阈值的大小关系,得到判断结果;
若所述判断结果为所述变量长度大于所述单元切割阈值,则基于符号集对所述第i单元的数据变量进行切割,确定切割后的数据变量以及切割后的变量长度;
若所述切割后的变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将切割后的数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度大于等于所述过滤阈值且小于等于所述单元切割阈值,则将数据变量加入处理后的数据集中;
若所述判断结果为所述变量长度小于所述过滤阈值,则判断第i+1单元的数据变量;直至历遍所述单元化数据集中所有的数据变量。


4.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,具体包括:
对所述训练集中的标注序列根据不同字符出现的次数降序排列,构建字符字典;
对所述字符字典中全部字符按照正态分布随机采样,构成字符特征向量;
根据所述字符特征向量构建字符特征向量字典;
根据所述构建字符特征向量字典,确定所述训练集的特征序列;
根据所述特征序列确定所述双向LSTM+CRF模型的发射分数矩阵;
根据所述的发射分数矩阵确定标注状态转移矩阵。


5.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述利用所述训练集训练由双向长短期记忆神经网络模型与条件随机场模型组成的双向LSTM+CRF模型,之后还包括:
利用所述测试集对所述双向LSTM+CRF模型进行测试。


6.根据权利要求1所述的一种5G移动业务产品名称识别方法,其特征在于,所述根据所述处理后的数据集,利用训练后的双向LSTM+CRF模型,确定移动业务产品名称识别结果集;并根据所述移动业务产品名称识别结果集构建移动业务产品名称字典,具体包括:
将所述移动业务产品名称识别结果集加入到Jieba分词库中,利用所述Jieba分词库对所述处理后的数据集进行分词,得到词集;
利用word2vec中的负采样CBOW模型,提取词集内各个词语之间的相关性;并根据所述相关性确定词...

【专利技术属性】
技术研发人员:杜俊笙段亮李忠斌岳昆
申请(专利权)人:云南大学
类型:发明
国别省市:云南;53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1