【技术实现步骤摘要】
本专利技术涉及一种网络文本分割方法,特别是,适用于对网络短篇幅文本的分割。
技术介绍
网络文本分割技术是网络舆情监控、网络文本情感分析的重要技术手段,有助于发现网络文本中深层次语义信息。 文献"基于多元判别分析的文本分割模型,软件学报,2007, 18 (3) , P 555-564"公开了一种利用词频信息进行文本分割的方法。该方法采用多元判别分析方法,利用词频信息以向量空间模型表示文本,考虑分割单元内部距离、分割单元间距离、分割单元长度等3个因素定义了 4个全局评价函数,实现对文本分割模式的全局评价。但是,针对网络文本中的短篇幅文本,由于文本中存在数据稀疏现象,无法提供足够的词频信息;同时,由于词频信息是浅层语义信息,仅依据词频计算分割单元之间的相似度,影响相似度计算的准确性,进而影响文本分割结果的准确性。
技术实现思路
针对现有技术方法网络短篇幅文本分割准确率较低的缺陷,本专利技术提出一种基于遗传算法的网络文本分割方法,利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LatentDirichlet allocation, LDA)模型,并利用该模型推断 ...
【技术保护点】
一种基于遗传算法的网络文本分割方法,其特征在于包括以下步骤:(a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;(b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;(c)对待分割文本进行分词、词性扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。标 ...
【技术特征摘要】
【专利技术属性】
技术研发人员:蔡皖东,赵煜,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:87[中国|西安]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。