【技术实现步骤摘要】
一种基于时空突发特征的社交媒体文本去噪方法
[0001]本专利技术属于数据处理领域,特别涉及一种文本去噪技术。
技术介绍
[0002]随着社交媒体的广泛使用,每天都有数以百亿计的文本信息在Twitter、Facebook、Instagram、微博等社交媒体上发表,这些信息包含了最完整的、时效性最高的各类信息。通过提取分析这些信息,我们可以完成很多有价值的事情。
[0003]文本是用户在社交媒体中进行内容表达的重要形式之一,因此社交媒体文本数据中包含了大量有价值的信息,这些数据也是很多社交媒体数据挖掘任务的输入。但是,由于社交媒体的开放性,社交媒体中绝大部分文本信息都是对个人生活、个人情感的描述,这些文本中通常不包含有价值的信息。
[0004]社交媒体文本去噪旨在从文本中识别并保留与事件、主题等相关的文本,这些文本可以作为各类社交媒体挖掘任务的输入,是有价值的文本信息;反之则为无价值文本(称为“噪声文本”),需要对这些文本进行去除。在社交媒体中,绝大多数文本信息是噪声文本。因此,在使用社交媒体上的信息之前需要进 ...
【技术保护点】
【技术特征摘要】
1.一种基于时空突发特征的社交媒体文本去噪方法,其特征在于,包括:S1、根据社交媒体文本的发送时间和发送地点,统计出各个单词出现的时空信息,将单词出现的时空信息表征为三维空间内的点;S2、通过Ripley
’
s K函数来衡量三维空间内点的聚集程度;S3、引入单词间条件概率来建立单词关联图,通过图正则化方法结合聚集程度判断单词是否为噪声词。2.根据权利要求1所述的一种基于时空突发特征的社交媒体文本去噪方法,其特征在于,步骤S1所述时空信息具体表达形式为[time
i
,longitude
i
,latitude
i
],time
i
表示第i条推文的时间信息,longitude
i
表示第i条推文的经度信息,latitude
i
表示第i条推文的纬度信息。3.根据权利要求2所述的一种基于时空突发特征的社交媒体文本去噪方法,其特征在于,步骤S1通过识别文本中的地理实体词,根据地理实体的经纬度信息得到文本中单词的经纬度信息。4.根据权利要求2所述的一种基于时空突发特征的社交媒体文本去噪方法,其特征在于,步骤S2所述通过Ripley
’
s K函数来衡量三维空间内点的聚集程度,聚集程度的表达式为:其中,K
w
(t,h)表示Ripley
’
s K函数;λ
w
表示单词w在三维空间中的密度;N
w
(t,h)表示在单词w的某个三维空间点的周围以h为空间半径,t为时间半径的区域内该单词其他点的数目;E[N
w
(t,h)]表示对N
w
(t,h)取期望。5.根据权利要求4所述的一种基于时空突发特征的社交媒体文本去噪方法,其特征在于,步骤S2通过下式计算单词w的Ripley
’
s K函数的数值;其中,表示Ripley
’
s K函数的数值,R为推文出现的空间的面积,T...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。