【技术实现步骤摘要】
短文本的聚类方法、装置、介质及电子设备
本专利技术涉及自然语言处理
,具体而言,涉及一种短文本的聚类方法、装置、介质及电子设备。
技术介绍
当今互联网技术的高速普及和社交媒体的广泛使用,促使文本数据数量飞速增长,其主要形式为短文本,例如评价信息、客户咨询问题、微保评论等。如何从短文本数据中提取有价值信息成为了一项具有挑战性的工作。传统的文本聚类方法主要集中于文本词面上的特征,考虑其单词词频及逆文本频率等。运用向量空间模型对其构建特征向量来表示每个短文本,由于短文本单词极少,会出现特征表示稀疏性,计算量大等缺点,同时也没有考虑短文本内部词汇之间的语义信息,不适用于短文本聚类。同时,PLSA、LDA等主题模型给文本和词汇引入了主题的概念,分析词汇在文本中的主题分布,解决了近义词的问题,但是计算难度大,对短文本聚类时的效果差。针对目前日益增长的短文本数据,其并不适用与短文本聚类。因此,本专利技术基于上述问题,提出了一种基于深度学习语义匹配模型的短文本聚类方法。需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本专利技术的背景的理解,因此可以包括不构成对本领域普 ...
【技术保护点】
1.一种短文本的聚类方法,其特征在于,该方法包括:通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,所述多个待分类短文本的语义特征向量中的每个待分类短文本的语义特征向量含有待分类短文本的上下文局部特征、全局特征和语义相关短文本的上下文局部特征和全局特征,所述语义相关短文本是对所述待分类短文本的语义的补充;利用聚类算法根据k个初始聚类中心点,对所述多个待分类短文本的语义特征向量进行迭代聚类,将所述多个待分类短文本的语义特征向量分为多个短文本类,所述k个初始聚类中心点包括从所述多个待分类短文本的语义特征向量中选中的k个待分类短文本的语义特征向量。
【技术特征摘要】
1.一种短文本的聚类方法,其特征在于,该方法包括:通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量,所述多个待分类短文本的语义特征向量中的每个待分类短文本的语义特征向量含有待分类短文本的上下文局部特征、全局特征和语义相关短文本的上下文局部特征和全局特征,所述语义相关短文本是对所述待分类短文本的语义的补充;利用聚类算法根据k个初始聚类中心点,对所述多个待分类短文本的语义特征向量进行迭代聚类,将所述多个待分类短文本的语义特征向量分为多个短文本类,所述k个初始聚类中心点包括从所述多个待分类短文本的语义特征向量中选中的k个待分类短文本的语义特征向量。2.根据权利要求1所述的方法,其特征在于,所述聚类算法包括K-means算法。3.根据权利要求2所述的方法,其特征在于,利用聚类算法根据k个初始聚类中心点,对所述多个待分类短文本的语义特征向量进行迭代聚类,将所述多个待分类短文本的语义特征向量分为多个短文本类包括:利用所述K-means算法依次计算所述多个待分类短文本的语义特征向量中未被选中的待分类短文本的语义特征向量与k个聚类中心的距离,并根据最小距离原则对所述未被选中的语义特征向量进行聚类;根据聚类的结果,将每个聚类中的每个待分类短文本的语义特征向量的均值作为所述每个聚类中的中心点;根据所述每个聚类中的中心点,对所述每个聚类中的每个待分类短文本的语义特征向量进行迭代聚类,直至满足预设条件以将所述多个待分类短文本的语义特征向量分为多个短文本类。4.根据权利要求1所述的方法,其特征在于,通过循环神经网络和注意力机制获取多个待分类短文本的语义特征向量包括:利用循环神经网络获取待分类短文本的具有上下文局部特征的特征向量序列和语义相关短文本的具有上下文局部特征的特征向量序列;基于所述待分类短文本的具有上下文局部特征的特征向量序列和所述待分类短文本的具有上下文局部特征的特征向量序列中每个特征向量的注意力权重,生成所述待分类短文本的具有上下文局部特征和全局特征的特征向量,以及基于所述语义相关短文本的具有上下文局部特征的特征向量序列和所述语义相关短文本的具有上下文局部特征的特征向量序列中每个特征向量的注意力权重,生成所述语义相关短文本的具有上下文局部特征和全局特征的特征向量;根据所述待分类短文本的具有上下文局部特征和全局特征的特征向量、所述语义相关短文本的具有上下文局部特征和全局特征的特征向量,确定所述多个待分类短文本的语义特征向量。5.根据权利要求4所述的方法,其特征在于,在利用循环神经网络获取待分类短文本的具有上下文局部特征的特征向量序列和语义相关短文本的具有上下文局部特征的特征向量序列之前,该方法还包括:对所述待分类短文本和所述语义相关短文本分别进行分词处理,得到所述待分类短文本的单词和所述语义相关短文本的单词;对所述待分类短文本的单词和所述语义相关短文本的单词分别进行分布式表示,得到待分类短文本的词向量序列和语义相关短文本的词向量序列。6.根据权利要求1所述的方法,其特征在于,所述循环神经网络包括双向循环神经网络,所述双向循环神经网络中的循环神经网络包括基于长短时记忆LSTM和/或基于门控循环单元GRU的网络。7.根据权利要求5所述的方法,其特征在于,该方法还包括:基于所述待分类短文本的具有上下文局部特征的特征向量序列和所述语义相关短文本的具有上下文局部特征的...
【专利技术属性】
技术研发人员:李渊,
申请(专利权)人:泰康保险集团股份有限公司,泰康在线财产保险股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。