供电服务客户电量电费诉求识别方法技术

技术编号:28130569 阅读:17 留言:0更新日期:2021-04-19 11:51
本发明专利技术提供一种供电服务客户电量电费诉求识别方法。所述基于文本相似度度量的供电服务客户电量电费诉求识别方法包括以下步骤:S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本。本发明专利技术提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法具有能够自动进行分类识别、大大降低了人工、识别效率高的优点。识别效率高的优点。

【技术实现步骤摘要】
供电服务客户电量电费诉求识别方法


[0001]本专利技术涉及供电服务
,尤其涉及一种供电服务客户电量电费诉求识别方法。

技术介绍

[0002]供电服务是电力经营机制中的一个重要环节,是电力安全的保证.是电力生产部门与客户之间的特殊纽带。
[0003]现有的供电服务客户电量电费诉求大多采用人工进行逐条进行阅读分类,工作量较大、且易出错。
[0004]因此,有必要提供一种新的基于文本相似度度量的供电服务客户电量电费诉求识别方法解决上述技术问题。

技术实现思路

[0005]本专利技术解决的技术问题是提供一种具有能够自动进行分类识别、大大降低了人工、识别效率高的基于文本相似度度量的供电服务客户电量电费诉求识别方法。
[0006]为解决上述技术问题,本专利技术提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法包括以下步骤:
[0007]S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;
[0008]S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本,依据余弦相似度算法识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表;
[0009]S3:自动化文本分类:根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后。
[0010]优选的,所述S1中,停用词包括对文本分析无影响的语气助词、量大且无效的词汇、标点符号。
[0011]优选的,所述S3中,根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,如停电诉求主题对应的词库包括处理、导致、电话、反映、核查、来电和要求。
[0012]优选的,所述S3中结合分类算法,对新产生的工单数据进行分类,用于识别客户诉求。
[0013]优选的,所述S1中,采用调用封存的jar包,所述jar包中通过开发的java程序一方面实现分词工具的调用,在调用ICTCLAS分词工具,用于保证分词结果准确和有效性,所述
jar包中加入电力行业专业词库和同义词库。
[0014]优选的,所述jar包中加入电力行业专业词库和同义词库,如专业词库中专业词三相不平衡、三相负荷、三相平衡统一定义为同义词三相问题,专业词库中专业词时间不要这么长、时间过长、时间跨度长、时间太长、时间长统一定义为同义词时间过长。
[0015]与相关技术相比较,本专利技术提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法具有如下有益效果:
[0016]本专利技术提供供电服务客户电量电费诉求识别方法,通过对文件进行预处理然后再进行余弦相似度算法形成客户诉求热点体系表并最终形成自动化文本,能够快速有效的对客户电量电费诉求进行识别,且通过将专业词同一定义为一类同义词,方便了对客户电量电费诉求进行分类查阅。
具体实施方式
[0017]下面结合实施方式对本专利技术作进一步说明。
[0018]基于文本相似度度量的供电服务客户电量电费诉求识别方法包括以下步骤:
[0019]S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;
[0020]S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本,依据余弦相似度算法识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表;
[0021]S3:自动化文本分类:根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后。
[0022]优选的,所述S1中,停用词包括对文本分析无影响的语气助词、量大且无效的词汇、标点符号。
[0023]优选的,所述S3中,根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,如停电诉求主题对应的词库包括处理、导致、电话、反映、核查、来电和要求。
[0024]优选的,所述S3中结合分类算法,对新产生的工单数据进行分类,用于识别客户诉求。
[0025]优选的,所述S1中,采用调用封存的jar包,所述jar包中通过开发的java程序一方面实现分词工具的调用,在调用ICTCLAS分词工具,用于保证分词结果准确和有效性,所述jar包中加入电力行业专业词库和同义词库。
[0026]优选的,所述jar包中加入电力行业专业词库和同义词库,如专业词库中专业词三相不平衡、三相负荷、三相平衡统一定义为同义词三相问题,专业词库中专业词时间不要这么长、时间过长、时间跨度长、时间太长、时间长统一定义为同义词时间过长。
[0027]与相关技术相比较,本专利技术提供的基于文本相似度度量的供电服务客户电量电费诉求识别方法具有如下有益效果:
[0028]本专利技术提供供电服务客户电量电费诉求识别方法,供电服务客户电量电费诉求识别方法,通过对文件进行预处理然后再进行余弦相似度算法形成客户诉求热点体系表并最终形成自动化文本,能够快速有效的对客户电量电费诉求进行识别,且通过将专业词同一定义为一类同义词,方便了对客户电量电费诉求进行分类查阅。
[0029]以上所述仅为本专利技术的实施例,并非因此限制本专利技术的专利范围,凡是利用本专利技术说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的
,均同理包括在本专利技术的专利保护范围内。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.供电服务客户电量电费诉求识别方法,其特征在于,包括以下步骤:S1:文本预处理:将工单中的文本进行文本分词及文本量化,对文本长内容按照规则进行切分,剔除停用词;通过文本预处理形成专业词库和同义词库,用于提高对新数据进行分词的准确性和有效性;S2:余弦相似度算法:在全量样本中随机选择一万条样本作为训练样本和测试样本,在全量样本中随机选择一万条样本,依据余弦相似度算法识别工单中包含的客户诉求,结合业务知识及逻辑,定义各个主题的业务意义,形成客户诉求热点体系表;S3:自动化文本分类:根据识别的主题及对应的词库,结合分类算法对全量客服工单实现自动化的分类,同时结合包含多户停电诉求主题的其他工单进行丰富词库,最终形成各个诉求主题分别对应各自词库;之后结合分类算法对全量客服工单实现自动分类,以及当新的工单数据产生之后。2.根据权利要求1所述的基于文本相似度度量的供电服务客户电量电费诉求识别方法,其特征在于,所述S1中,停用词包括对文本分析无影响的语气助词、量大且无效的词汇、标点符号。3.根据权利要求1所述的基于文本相似度度量的供电服务客户电量电费诉...

【专利技术属性】
技术研发人员:郭亚琪刘文虎彭杰
申请(专利权)人:云南电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1