基于遗传算法的网络文本分割方法技术

技术编号:4220590 阅读:269 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种基于遗传算法的网络文本分割方法,用于对网络短篇幅文本的分割,所述方法利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(Latent?Dirichlet?allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,提高了网络短篇幅文本分割准确率。

【技术实现步骤摘要】

本专利技术涉及一种网络文本分割方法,特别是,适用于对网络短篇幅文本的分割。
技术介绍
网络文本分割技术是网络舆情监控、网络文本情感分析的重要技术手段,有助于发现网络文本中深层次语义信息。 文献"基于多元判别分析的文本分割模型,软件学报,2007, 18 (3) , P 555-564"公开了一种利用词频信息进行文本分割的方法。该方法采用多元判别分析方法,利用词频信息以向量空间模型表示文本,考虑分割单元内部距离、分割单元间距离、分割单元长度等3个因素定义了 4个全局评价函数,实现对文本分割模式的全局评价。但是,针对网络文本中的短篇幅文本,由于文本中存在数据稀疏现象,无法提供足够的词频信息;同时,由于词频信息是浅层语义信息,仅依据词频计算分割单元之间的相似度,影响相似度计算的准确性,进而影响文本分割结果的准确性。
技术实现思路
针对现有技术方法网络短篇幅文本分割准确率较低的缺陷,本专利技术提出一种基于遗传算法的网络文本分割方法,利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LatentDirichlet allocation, LDA)模型,并利用该模型推断目标文本的潜在话题信本文档来自技高网...

【技术保护点】
一种基于遗传算法的网络文本分割方法,其特征在于包括以下步骤:(a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;(b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;(c)对待分割文本进行分词、词性扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。标注、命名实体识别、词...

【技术特征摘要】

【专利技术属性】
技术研发人员:蔡皖东赵煜
申请(专利权)人:西北工业大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利