当前位置: 首页 > 专利查询>清华大学专利>正文

文本聚类方法、装置、电子设备及存储介质制造方法及图纸

技术编号:26762742 阅读:24 留言:0更新日期:2020-12-18 23:15
本申请提出一种文本聚类方法、装置、电子设备及存储介质,其中方法包括:根据获取到的待处理文本以及对应的实体特征、获取到的事件数据库中各个事件以及对应的实体特征,确定各个事件中与文本对应的相似事件;根据文本以及对应的相似事件,确定文本所描述的事件,将文本添加到文本所描述的事件下的文本集合中。该方法根据待处理的文本及对应的实体特征、事件数据库中各个事件及对应的实体特征,确定各个事件中与文本对应的相似事件,从而确定文本所描述的事件并将文本添加到文本所描述的事件下的文本集合中,实现了相差不大的待处理文本的区分,更加准确地确定事件数据库中与待处理文本对应的相似事件,提高了文本聚类的准确性。

【技术实现步骤摘要】
文本聚类方法、装置、电子设备及存储介质
本申请涉及应急处置
,尤其涉及一种文本聚类方法、装置、电子设备及存储介质。
技术介绍
目前,在应急处置领域,存在社交网络文本信息难以整合,文本价值密度过低的问题,使得应急处置工作无法从互联网中快速挖掘突发事件态势,比如,事件传播态势与热度趋势等。相关技术中,主要通过K-Means(K均值)聚类、基于密度的聚类方法(DBSCAN)、高斯混合模型(GMM)的最大期望(EM)聚类等文本聚类方法解决上述问题,但以上文本聚类方法的聚类模型属于无监督聚类模型,未高度重视训练集文本的实体特征,导致相差不大的文本不容易区分,聚类准确性较低。
技术实现思路
本申请的目的旨在至少在一定程度上解决上述技术问题之一。为此,本申请的第一个目的在于提出一种文本聚类方法,该方法根据文本及对应的实体特征、事件数据库中各个事件及对应的实体特征,确定各个事件中与文本对应的相似事件,从而确定文本所描述的事件并将文本添加到文本所描述的文本集合中,实现了相差不大的待处理文本的区分,更加准确地确定事本文档来自技高网...

【技术保护点】
1.一种文本聚类方法,其特征在于,包括:/n获取待处理的文本以及对应的实体特征;/n获取事件数据库,其中,所述事件数据库包括:各个事件以及对应的实体特征,以及所述各个事件下的文本集合;/n根据所述文本以及对应的实体特征、所述各个事件以及对应的实体特征,确定所述各个事件中与所述文本对应的相似事件;/n根据所述文本以及对应的相似事件,确定所述文本所描述的事件;/n将所述文本添加到所述文本所描述的事件下的文本集合中。/n

【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:
获取待处理的文本以及对应的实体特征;
获取事件数据库,其中,所述事件数据库包括:各个事件以及对应的实体特征,以及所述各个事件下的文本集合;
根据所述文本以及对应的实体特征、所述各个事件以及对应的实体特征,确定所述各个事件中与所述文本对应的相似事件;
根据所述文本以及对应的相似事件,确定所述文本所描述的事件;
将所述文本添加到所述文本所描述的事件下的文本集合中。


2.根据权利要求1所述的方法,其特征在于,所述实体特征包括以下特征中的至少一种:事件时间、事件地点和事件类型;
所述文本对应的事件时间的获取方式为,将所述文本输入预设的事件时间提取模型,提取所述文本中的事件时间;
所述文本对应的事件地点的获取方式为,对所述文本进行分词,获取所述文本中的各个词语;将所述文本中的各个词语与预设的地点词典中的地点进行匹配,获取与所述文本中词语匹配的地点;将所述匹配的地点,确定为所述文本对应的事件地点;
所述文本对应的事件类型的获取方式为,对所述文本进行分词,获取所述文本中的各个词语;获取所述各个词语中与各个事件类型关联的词语;针对每个事件类型,对与所述事件类型关联的词语的权重进行加和处理,得到所述事件类型的权重;根据所述各个事件类型的权重,确定所述文本对应的事件类型。


3.根据权利要求1所述的方法,其特征在于,所述根据所述文本以及对应的实体特征、所述各个事件以及对应的实体特征,确定所述各个事件中与所述文本对应的相似事件,包括:
将所述文本以及对应的实体特征、所述各个事件以及对应的实体特征输入预设的引导聚集模型,获取所述文本属于各个事件的概率;
根据所述文本属于各个事件的概率,确定所述各个事件中与所述文本对应的相似事件。


4.根据权利要求3所述的方法,其特征在于,所述引导聚集模型包括:多个回归网络子模型,每个回归网络子模型用于输出所述文本属于各个事件的一个概率;
所述根据所述文本属于各个事件的概率,确定所述各个事件中与所述文本对应的相似事件,包括:
针对每个事件,获取所述文本属于所述事件的多个概率;
根据所述文本属于所述事件的多个概率,确定所述文本属于所述事件的平均概率;
根据所述文本属于所述事件的多个概率以及所述平均概率,确定所述文本与所述事件之间的变异系数;
将对应的变异系数最小的事件,确定为与所述文本对应的相似事件。


5.根据权利要求4所述的方法,其特征在于,所述根据所述文本属于所述事件的多个概率以及所述平均概率,确定所述文本与所述事件之间的变异系数,包括:
根据所述文本属于所述事件的多个概率以及所述平均概率,确定所述文本属于所述事件的多个概率与所述平均概率之间的差方和;
根据所述差方和以及回归网络子模型的数量,计算所述文本与所述事件之间的变异系数。


6.根据权利要求1所述的方法,其特征在于,所述根据所述文本以及对应的相似事件,确定所述文本所描述的事件,包括:
将所述文本以及对应的相似事件输入长短期记忆神经网络模型,确定所述相似事件为所述文本所描述的事件的概率;
在所述概率大于预设的概率阈值时,确定所述相似事件为所述文本所描述的事件;
在所述概率小于或者等于预设的概率阈值时,根据所述文本生成新的事件,并将所述新的事件更新到所述事件数据库中。


7.一种文本聚类装置,其特征在于,包括:

【专利技术属性】
技术研发人员:陈涛黄丽达苏国锋苗雨加史盼盼李志鹏刘鑫
申请(专利权)人:清华大学北京辰安科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1