【技术实现步骤摘要】
【专利摘要】本专利技术提供一种,能解决短文本的特征稀疏性问题。步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展;步骤二、对扩展的训练样本集进行文本预处理,步骤三、基于预处理后的训练样本集建立主题特征词典;步骤四、将训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、构建SVM过滤器;步骤六、对待过滤文本基于上下文信息进行扩展、文本预处理,转化为特征词集合,再将其在隐主题空间上进行文本表示,由过滤器对其进行过滤;步骤七、定期采集新样本,在已有的隐主题空间上更新主题的词项概率分布,对新样本进行文本表示,重新建立SVM过滤器。【专利说明】
本专利技术属于信息过滤
,尤其涉及一种。
技术介绍
近年来,以互联网,手机等为代表的新媒体在人们的日常生活,学习和工作中正扮演着越来越重要的角色。人们可以通过微博,短信,新闻评论等关注社会热点,參与社会公共事务等。新媒体所具有的強大传播功能和舆论影响力,正在广泛而深刻地影响着人类社会的方方面面。但是,在新媒体积极发展的同时也伴随着ー些不容忽视的负面现象发生,某些人借助新媒体肆意传播反动 ...
【技术保护点】
一种基于语义扩展的海量短文本信息过滤方法,其特征在于,具体包括如下步骤:步骤一、建立初始的训练样本集,对于训练样本集的每个样本基于上下文信息进行扩展,形成新的训练样本集;步骤二、对扩展的训练样本集进行文本预处理,使用特征选择算法确定特征词,将每个文本变换为特征词的集合;步骤三、基于步骤二中预处理后的训练样本集进行并行训练LDA(Latent?Dirichlet?Allocation)扩展模型,建立主题特征词典;步骤四、将步骤二中所述的训练样本集的每个文本在隐主题空间上进行文本表示;步骤五、基于步骤二所述的训练样本集的主题向量表示学习构建SVM(Support?Vector? ...
【技术特征摘要】
【专利技术属性】
技术研发人员:刘振岩,王伟平,孟丹,王勇,康颖,
申请(专利权)人:北京理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。