【技术实现步骤摘要】
用于对投诉信息进行分类的方法、装置和存储介质
[0001]本公开涉及信息处理领域,更具体地,涉及信息处理领域中用于对投诉信息进行分类的方法、装置和存储介质。
技术介绍
[0002]在互联网企业和传统服务性企业运营过程中,会不断收到海量的用户投诉信息。如果缺少对投诉信息的快速分析和处理,可能会导致投诉压力过大、客户满意度降低等问题。
[0003]用户投诉信息主要是文本信息,可以通过中文自然语言处理算法对其进行处理以提取其中的关键词。关键词是能够表达文本信息内容的词语,常常用于计算机系统标引文本内容特征、信息检索、系统汇集等。关键词提取是文本挖掘领域的一个分支,是文本检索、文本比较、摘要生成、文本分类和聚类等文本挖掘研究的基础性工作。
[0004]目前,对用户投诉信息的自动化处理局限在根据其中的关键词搜索预先设计好的问题。但是,搜索的问题可能并不是与用户投诉有关的问题。这使得处理用户投诉的效率并不高,可能难以给出有针对性的服务。此外,目前对用户投诉信息的处理不涉及从语义上对投诉信息进行自动分类,从而难以帮助投诉处 ...
【技术保护点】
【技术特征摘要】
1.一种用于对投诉信息进行分类的方法,包括:提取用户投诉文本中的敏感数据,并从用户投诉文本中删除提取的敏感数据以得到待分析文本;在待分析文本中确定待输入到经机器学习得到的分类模型的多个关键词短语,所述多个关键词短语是在待分析文本中的候选短语之中根据候选短语中包含的词语而确定的;以及通过使用所述分类模型对待分析文本和所述多个关键词短语进行处理,得到与用户投诉文本对应的投诉类型。2.根据权利要求1所述的方法,其中,所述提取用户投诉文本中的敏感数据包括:在用户投诉文本包括指示手机号、身份证号和/或电子邮箱地址的敏感数据的情况下,通过使用正则表达式提取指示手机号、身份证号和/或电子邮箱地址的敏感数据;以及在用户投诉文本包括指示地址信息和/或姓名的敏感数据的情况下,通过使用预训练模型提取指示地址信息和/或姓名的敏感数据。3.根据权利要求1所述的方法,其中,根据快速关键词提取算法,从待分析文本中确定所述多个关键词短语。4.根据权利要求1所述的方法,其中,确定所述多个关键词短语包括:在待分析文本中确定候选短语;对于每个候选短语,通过以下方式计算该候选短语的得分:根据该候选短语中包含的每个词语的共现关系值和出现频率,计算该词语的得分,和根据该候选短语中包含的每个词语的得分,计算该候选短语的得分;按照候选短语的得分从高到低的顺序,对候选短语进行排序;以及选择得分最高的多个候选短语作为输入到分类模型的所述多个关键词短语。5.根据权利要求1所述的方法,其中,所述分类模型是...
【专利技术属性】
技术研发人员:贺路阳,武小波,王颖,
申请(专利权)人:中国电信股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。