System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 对话文本聚类方法及相关设备技术_技高网

对话文本聚类方法及相关设备技术

技术编号:39940175 阅读:5 留言:0更新日期:2024-01-08 22:30
本说明书实施例公开了一种对话文本聚类方法及相关设备,涉及自然语言处理领域。在本说明书中,通过获取多个对话文本,该对话文本由至少两个用户在对话过程中产生,进一步通过提取各对话文本分别对应的语义特征信息和词频特征信息,综合各对话文本分别对应的语义特征信息和词频特征信息,将多个对话文本进行聚类,从而得到多个对话文本对应的至少一个聚类结果,各聚类结果中包括至少一个对话文本。

【技术实现步骤摘要】

本说明书涉及自然语言处理领域,尤其涉及一种对话文本聚类方法及相关设备


技术介绍

1、随着科技和互联网技术的发展,文本数据量不断增加,采用对话文本聚类方法可以高效地从文本数据中获得有使用价值的信息。例如,消费金融公司作为持牌的非银金融机构,智能化建设和运营的客服体系可以完成用户在信贷产品使用全周期内的疑难咨询和问题解决。而且随着互联网技术的发展,客服系统已从电话服务逐渐迈向在线服务和电话服务并存的现状。换而言之,在线服务是由用户和客服人员借助聊天文本框完成沟通交流的一种形式。然而,由于用户与客服进行沟通的文本内容多样,且存在大量的冗余表达。因此对在线客服系统中产生的沟通文本进行聚类,通过聚类对沟通文本进行挖掘和理解,提升对用户的沟通偏好及来访意图的识别和感知,是在线客服系统的智能化建设和运营中不可或缺的一环。

2、目前,对话文本聚类方法主要采用人工智能技术中的机器学习或深度学习的技术确定。

3、基于机器学习的对话文本聚类方法主要将对话文本聚类问题分成特征工程和分类器两部分。其中特征工程包含文本预处理、特征提取、文本表示等部分。在此过程中首先对文本进行清洗,利用分词工具对文本分词,再利用词袋法、词频及逆文本频率指数tf-idf(term frequency–inversedocument frequency,tf-idf)等方法将文本表示成向量形式,再将文本对应的向量输入到如支持向量机(support vector machines,svm)、决策树等分类器中,以得到最终的聚类结果。但在机器学习中特征表达能力弱,且需要人工进行特征处理,最终导致对话文本聚类的准确率较低。

4、基于深度学习的对话文本聚类方法,首先对文本进行清洗与分词,然后基于神经网络如word2vec将文本转化为稠密词向量(word embedding),再通过神经网络如全连接网络(fully connected network)、长短时记忆网络lstm(long short-term memory,lstm)对文本词向量进行训练以得到最后的聚类结果。

5、上述对话文本聚类方法均需要构造标注好的数据集以完成深度学习模型和/或分类器的训练,从而通过训练好的深度学习模型和/或分类器将多个对话文本聚类。然而,上述构造标注好的数据集都需要人工标注,耗时耗力,导致高昂的人工成本和大量的时间消耗。


技术实现思路

1、本说明书实施例提供了一种对话文本聚类方法及相关设备,可以增强对话文本聚类的准确性,提高对话文本的聚类效率。所述技术方案如下:

2、第一方面,本说明书实施例提供了一种对话文本聚类方法,所述对话文本聚类方法包括:

3、获取多个对话文本;其中,各所述对话文本为至少两个用户在对话过程中产生的文本,所述多个对话文本分别对应的至少两个用户不完全相同;

4、根据所述多个对话文本,基于各所述对话文本中至少一个第一关键词提取各所述对话文本对应的语义特征信息,以及基于各所述对话文本中至少一个第二关键词提取各所述对话文本对应的词频特征信息;

5、根据各所述对话文本分别对应的语义特征信息和词频特征信息,对所述多个对话文本进行聚类,得到至少一个聚类结果;其中,各所述聚类结果包括至少一个所述对话文本。

6、第二方面,本说明书实施例提供了一种对话文本聚类方法,所述对话文本聚类方法包括:

7、获取待聚类对话文本;

8、根据所述待聚类对话文本,基于所述待聚类对话文本中至少一个第一关键词提取所述待聚类对话文本对应的语义特征信息,以及根据待聚类对话文本中至少一个第二关键词提取所述待聚类对话文本对应的词频特征信息;

9、根据至少一个聚类结果,以及所述待聚类对话文本分别对应的语义特征信息和词频特征信息,对所述待聚类对话文本进行聚类,确定所述待聚类对话文本在所述至少一个聚类结果中所属的目标聚类结果;其中,所述至少一个聚类结果通过如第一方面所述对话文本聚类方法得到。

10、第三方面,本说明书实施例提供了一种对话文本聚类装置,所述对话文本聚类装置包括:

11、第一获取模块,用于获取多个对话文本;其中,各所述对话文本为至少两个用户在对话过程中产生的文本,所述多个对话文本分别对应的至少两个用户不完全相同;

12、第一提取模块,用于根据所述多个对话文本,基于各所述对话文本中至少一个第一关键词提取各所述对话文本对应的语义特征信息,以及基于各所述对话文本中至少一个第二关键词提取各所述对话文本对应的词频特征信息;

13、第一聚类模块,用于根据各所述对话文本分别对应的语义特征信息和词频特征信息,对所述多个对话文本进行聚类,得到至少一个聚类结果;其中,各所述聚类结果包括至少一个所述对话文本。

14、第四方面,本说明书实施例提供了一种对话文本聚类装置,所述对话文本聚类装置包括:

15、第二获取模块,用于获取待聚类对话文本;

16、第二提取模块,用于根据所述待聚类对话文本,基于所述待聚类对话文本中至少一个第一关键词提取所述待聚类对话文本对应的语义特征信息,以及根据待聚类对话文本中至少一个第二关键词提取所述待聚类对话文本对应的词频特征信息;

17、第二聚类模块,用于根据至少一个聚类结果,以及所述待聚类对话文本分别对应的语义特征信息和词频特征信息,对所述待聚类对话文本进行聚类,确定所述待聚类对话文本在所述至少一个聚类结果中所属的目标聚类结果;其中,所述至少一个聚类结果通过如第一方面所述对话文本聚类方法得到。

18、第五方面,本说明书实施例提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

19、第六方面,本说明书实施例提供一种计算机程序产品,所述计算机程序产品存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

20、第七方面,本说明书实施例提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

21、本说明书一些实施例提供的技术方案带来的有益效果至少包括:

22、本说明书实施例通过获取多个对话文本,该对话文本由至少两个用户在对话过程中产生,进一步通过提取各对话文本分别对应的语义特征信息和词频特征信息,将多个对话文本进行聚类,从而得到多个对话文本对应的至少一个聚类结果。在本说明书中,提取表征对话文本的深度语义信息的语义特征信息,以及提取对话文本中至少一个关键词的词频特征信息,克服了对话文本“口语表达多,信息密度低”的问题,进一步综合语义特征信息和词频特征信息对多个对话文本进行聚类,无需提前构造标注好的数据集来训练聚类模型或聚类算法即可实现对多个对话文本的无监督聚类,降低人工成本和时间消耗的同时,聚类效果较好,准确性较高。

本文档来自技高网...

【技术保护点】

1.一种对话文本聚类方法,所述对话文本聚类方法包括:

2.根据权利要求1所述的对话文本聚类方法,所述根据所述多个对话文本,基于各所述对话文本中至少一个第一关键词提取各所述对话文本对应的语义特征信息,以及基于各所述对话文本中至少一个第二关键词提取各所述对话文本对应的词频特征信息,包括:

3.根据权利要求2所述的对话文本聚类方法,所述根据各所述对话文本中至少一个第一关键词,提取各所述对话文本对应的语义特征信息,包括:

4.根据权利要求3所述的对话文本聚类方法,所述根据各所述对话文本中至少一轮关键子对话文本,提取各所述对话文本对应的语义特征信息,包括:

5.根据权利要求4所述的对话文本聚类方法,所述根据各所述对话文本中至少一轮关键子对话文本,对各所述对话文本中至少一轮关键子对话文本分别进行数据扩增处理,得到各所述对话文本中至少一轮关键子对话文本分别对应的扩增文本,包括:

6.根据权利要求1或2所述的对话文本聚类方法,所述根据所述多个对话文本,基于各所述对话文本中至少一个第一关键词提取各所述对话文本对应的语义特征信息,以及基于各所述对话文本中至少一个第二关键词提取各所述对话文本对应的词频特征信息,包括:

7.根据权利要求1所述的对话文本聚类方法,所述第一关键词与情绪和/或观点有关,所述第二关键词与具体事务有关。

8.根据权利要求1所述的对话文本聚类方法,所述根据各所述对话文本分别对应的语义特征信息和词频特征信息,对所述多个对话文本进行聚类,包括:

9.根据权利要求8所述的对话文本聚类方法,所述根据各所述对话文本分别对应的语义特征信息和词频特征信息,确定所述多个对话文本中任意两个对话文本之间的相似度,包括:

10.根据权利要求8或9所述的对话文本聚类方法,所述根据所述多个对话文本中任意两个对话文本之间的相似度,对所述多个对话文本进行聚类,得到至少一个所述聚类结果,包括:

11.根据权利要求1所述的对话文本聚类方法,所述获取多个对话文本,包括;

12.根据权利要求1所述的对话文本聚类方法,所述根据各所述对话文本分别对应的语义特征信息和词频特征信息,对所述多个对话文本进行聚类,得到至少一个聚类结果后,还包括:

13.一种对话文本聚类方法,所述对话文本聚类方法包括:

14.一种对话文本聚类装置,所述对话文本聚类装置包括:

15.一种对话文本聚类装置,所述对话文本聚类装置包括:

16.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~13任意一项的方法步骤。

17.一种计算机程序产品,所述计算机程序产品存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~13任意一项的方法步骤。

18.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~13任意一项的方法步骤。

...

【技术特征摘要】

1.一种对话文本聚类方法,所述对话文本聚类方法包括:

2.根据权利要求1所述的对话文本聚类方法,所述根据所述多个对话文本,基于各所述对话文本中至少一个第一关键词提取各所述对话文本对应的语义特征信息,以及基于各所述对话文本中至少一个第二关键词提取各所述对话文本对应的词频特征信息,包括:

3.根据权利要求2所述的对话文本聚类方法,所述根据各所述对话文本中至少一个第一关键词,提取各所述对话文本对应的语义特征信息,包括:

4.根据权利要求3所述的对话文本聚类方法,所述根据各所述对话文本中至少一轮关键子对话文本,提取各所述对话文本对应的语义特征信息,包括:

5.根据权利要求4所述的对话文本聚类方法,所述根据各所述对话文本中至少一轮关键子对话文本,对各所述对话文本中至少一轮关键子对话文本分别进行数据扩增处理,得到各所述对话文本中至少一轮关键子对话文本分别对应的扩增文本,包括:

6.根据权利要求1或2所述的对话文本聚类方法,所述根据所述多个对话文本,基于各所述对话文本中至少一个第一关键词提取各所述对话文本对应的语义特征信息,以及基于各所述对话文本中至少一个第二关键词提取各所述对话文本对应的词频特征信息,包括:

7.根据权利要求1所述的对话文本聚类方法,所述第一关键词与情绪和/或观点有关,所述第二关键词与具体事务有关。

8.根据权利要求1所述的对话文本聚类方法,所述根据各所述对话文本分别对应的语义特征信息和词频特征信息,...

【专利技术属性】
技术研发人员:周宇
申请(专利权)人:重庆蚂蚁消费金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1