【技术实现步骤摘要】
语音文本聚类方法和装置
本申请实施例涉及文本聚类
,具体而言,涉及一种语音文本聚类方法和装置。
技术介绍
在大数据时代,数据的重要性不言而喻,数据已经成为各个公司重要的虚拟财产,各个公司依据自己所掌握的数据为自己在本领域建立了旁人不及的技术优势。使用数据的前提需要对数据进行聚类分析以便后续使用,但是对于在日常生活中产生的大量语音文本数据集,其相对于互联网文本来说离散程度更高,类别更多,例如,在一段移动通信运营商的客服通话文本中可能包含有费用查询、宽带办理、紧急停开机、地区漫游等数量众多有差异巨大的类别。语音文本的这些属性给常用的聚类方法带来的巨大压力,因此,如何对语音文本进行聚类一直是业内研究的重难点。
技术实现思路
基于上述问题,本申请实施例提供一种语音文本聚类方法和装置,旨对语音文本实现更精准的聚类分析。本申请实施例第一方面提供一种语音文本聚类方法,所述方法包括:对多个语音文本进行预处理,得到多个待处理语音文本;利用词表示模型将所述待处理语音文本转换为一个文本向量 ...
【技术保护点】
1.一种语音文本聚类方法,其特征在于,所述方法包括:/n对多个语音文本进行预处理,得到多个待处理语音文本;/n利用词表示模型将所述待处理语音文本转换为一个文本向量;/n对所述多个所述待处理语音文本获得的所有文本向量进行聚类,获得多个中间类别;/n计算每一个中间类别的中心向量,基于计算获得的多个中心向量重新将所述所有文本向量划分为多个类别。/n
【技术特征摘要】
1.一种语音文本聚类方法,其特征在于,所述方法包括:
对多个语音文本进行预处理,得到多个待处理语音文本;
利用词表示模型将所述待处理语音文本转换为一个文本向量;
对所述多个所述待处理语音文本获得的所有文本向量进行聚类,获得多个中间类别;
计算每一个中间类别的中心向量,基于计算获得的多个中心向量重新将所述所有文本向量划分为多个类别。
2.根据权利要求1所述方法,其特征在于,所述方法还包括:
计算所述所有文本向量在划分为所述多个类别后改变类别的文本向量数目;
判断改变类别的文本向量数目是否大于预设阈值,当改变类别的文本向量数目大于所述预设阈值时继续执行以下步骤:
迭代的,重新计算所述多个类别中每一类的中心向量,并基于重新计算获得的中心向量对所有文本向量进行分类,直到改变类别的文本向量数目小于所述预设阈值。
3.根据权利要求1所述方法,其特征在于,对多个语音文本进行预处理,包括:
对语音文本进行分词及词性标注;
和/或,对语音文本进行停用词过滤。
4.根据权利要求1所述方法,其特征在于,所述词表示模型包括以下任意一者:
Word2vec、CBOW、Skip-gram、GloVe、BERT、GPT2.0。
5.根据权利要求1所述方法,其特征在于,利用词表示模型将所述待处理语音文本转换为一个文本向量,包括:
先将所述待处理语音文本中的实词转换为多个词向量,所述实词包括名词、动词和动名词中的至少一个;
将所述待处理语音文本中的多个句子包含的词向量平均池化,得到相应的多个句向量;
将所述多个句向量组合得到所述文本向量。
6.根据权利要求1所述方法,其特征在于,对所述多个所述待处理语音文本获得的所有文本向量进行聚类,获得多个中间类别,包括:
S1、对所述多个所述待处理语音文本获得的所有文本向量编号,编号为1到n;
S2、将第一个文本向量划分为第一文本向量类;
S3、计算第二个文本向量与所述第一个文本向量的第一轮余弦相似度;
S4、若所述第一轮余弦相似度大于预设阈值则将第二个文本向量划分到第一文本向量类;
S5、若所述第一轮余弦相似度小于预设阈值则将第二个文本向量划分到第二文本向量类;
S6、依顺序计算新的文本向量时,读取已划分的文本向量类的类别;
S7、将所述新的文本向量依次与所述已划分的文本向量类的类别分别计算新一轮余弦相似度,当计算得到所述新的文本向量与已划分文本向量类中任一类别的新一轮余弦相似度大于预设阈值时,将所述新的文本向量划分为该类别;
或者,当并未计算到所述新的文本向量与已划分文本向量类中任一类别的新一轮余弦相似度都不大于预设阈值时,将所述新的文本向量划分为第p文本向量...
【专利技术属性】
技术研发人员:胡洪兵,李健,武卫东,陈明,
申请(专利权)人:北京捷通华声科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。