一种信息聚类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23625047 阅读:30 留言:0更新日期:2020-03-31 22:46
本申请提供了一种信息聚类方法、装置、电子设备及存储介质,其中,该方法包括:根据多个待处理文本中每一个待处理文本对应的至少一个分词,确定每一个待处理文本属于多个不同类别主题的概率;根据每一个待处理文本对应的至少一个分词特征,确定每一个待处理文本对应的文本特征;根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率,确定该两个待处理文本之间的相似度;根据每两个待处理文本之间的相似度以及类别主题的个数,确定对应同一类别主题的待处理文本,并将对应同一类别主题的待处理文本进行聚类。本申请基于每两个待处理文本之间的相似度,对多个待处理文本聚类,提高了聚类的准确性。

An information clustering method, device, electronic equipment and storage medium

【技术实现步骤摘要】
一种信息聚类方法、装置、电子设备及存储介质
本申请涉及互联网信息
,具体而言,涉及一种信息聚类方法、装置、电子设备及存储介质。
技术介绍
在大数据时代,通过互联网平台可以获取大量的文本,为了提高文本的处理效率,通常对获取的文本进行聚类,得到多种类别的文本,其中,同一类别的文本相似度较高,不同类别的文本相似度较低。针对同一类别的文本,可以采取相同的处理方式进行处理。现阶段,通常基于隐含狄利克雷(LatentDirichletAllocation,LDA)主题模型对多个文本进行聚类。针对每一个文本,LDA主题模型将该文本中多个分词分别对应的多个类别主题进行迭代抽样处理,当类别主题收敛时,得到该文本与预设个数的类别主题的对应关系,并基于上述对应关系确定文本间的相似度,将相似度满足预设条件的文本确定为同一类别的文本。LDA主题模型根据文本中多个分词的共现频率,确定文本与预设个数的类别主题的对应关系,当使用LDA主题模型确定短文本的类别主题时,由于短文本中分词个数较少,基于分词的共现频率确定短文本类别主题的准确性较差,进而降低短文本本文档来自技高网...

【技术保护点】
1.一种信息聚类方法,其特征在于,所述信息聚类方法包括:/n根据多个待处理文本中每一个待处理文本对应的至少一个分词,确定每一个待处理文本属于多个不同类别主题的概率;/n根据每一个待处理文本对应的至少一个分词特征,确定每一个待处理文本对应的文本特征;/n根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率,确定该两个待处理文本之间的相似度;/n根据每两个待处理文本之间的相似度以及所述类别主题的个数,确定对应同一类别主题的所述待处理文本,并将对应同一类别主题的待处理文本进行聚类。/n

【技术特征摘要】
1.一种信息聚类方法,其特征在于,所述信息聚类方法包括:
根据多个待处理文本中每一个待处理文本对应的至少一个分词,确定每一个待处理文本属于多个不同类别主题的概率;
根据每一个待处理文本对应的至少一个分词特征,确定每一个待处理文本对应的文本特征;
根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率,确定该两个待处理文本之间的相似度;
根据每两个待处理文本之间的相似度以及所述类别主题的个数,确定对应同一类别主题的所述待处理文本,并将对应同一类别主题的待处理文本进行聚类。


2.根据权利要求1所述的信息聚类方法,其特征在于,所述根据每一个待处理文本对应的至少一个分词特征,确定每一个待处理文本对应的文本特征,包括:
确定多个待处理文本分别对应的各个分词;
针对每一个分词,根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数,确定该分词在多个待处理文本中的第一权重;
针对每一个待处理文本,根据该分词在该待处理文本中的个数以及该分词在多个待处理文本中的第一权重,确定该分词对于该待处理文本的第二权重;
基于该待处理文本中每一个分词对应的第二权重和该分词的分词特征,确定该待处理文本的文本特征。


3.根据权利要求1所述的信息聚类方法,其特征在于,所述根据多个待处理文本中每两个待处理文本对应的文本特征和该两个待处理文本属于每个类别主题的概率,确定该两个待处理文本之间的相似度,包括:
根据多个待处理文本中每两个待处理文本对应的文本特征,确定该两个待处理文本之间的文本相似度;
根据该两个待处理文本属于每个类别主题的概率,确定该两个待处理文本之间的主题相似度;
根据该两个待处理文本之间的文本相似度和主题相似度以及所述文本相似度对应的第一权重值和所述主题相似度对应的第二权重值,确定该两个待处理文本之间的相似度。


4.根据权利要求1所述的信息聚类方法,其特征在于,通过如下方法确定所述类别主题的个数:
根据多个待处理文本中每一个待处理文本对应的至少一个分词,确定每一个待处理文本属于多个不同初始类别主题的第一概率,以及每一个分词属于多个不同初始类别主题的第二概率;
对所述第一概率和所述第二概率进行相应处理,得到与所述初始类别主题对应的主题特征值;
若所述主题特征值符合预设条件,则将该主题特征值对应的初始类别主题的个数确定为所述类别主题的个数。


5.根据权利要求2所述的信息聚类方法,其特征在于,所述根据该分词在每一个待处理文本中的个数以及所述待处理文本的总个数,确定该分词在多个待处理文本中的第一权重,包括:
针对每一个分词,计算该分词在每两个待处理文本中个数的差值,并计算该分词对应的多个所述差值...

【专利技术属性】
技术研发人员:王千梁新敏陈羲
申请(专利权)人:秒针信息技术有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1