The invention belongs to the field of text segmentation technology, and particularly relates to a text segmentation method based on hierarchical Dirichlet model, which includes the following steps: S1, acquisition of news corpus, preprocessing of news corpus, acquisition of word segmentation set of the whole news corpus, and word frequency statistics of word segmentation set; S2, putting the results of statistical word frequency into hierarchical Dirichlet process model. Training, preserve the trained hierarchical Dirichlet process model; S3, through the trained hierarchical Dirichlet process model, get the subject vectors of each word in the text to be segmented, and realize text segmentation according to the subject vectors. By using the invention, the following effects can be achieved: the method makes the text segmentation no longer depend on the manual setting of the number of topics, and automatically generates the subject vector by hierarchical Dirichlet process model, thus improving the efficiency of text segmentation.
【技术实现步骤摘要】
一种基于分层狄利克雷模型的文本分割方法
本专利技术属于文本分割
,尤其涉及一种基于分层狄利克雷模型的文本分割方法。
技术介绍
随着网络的快速发展,人们逐渐跨入全新的网络时代,各种电子文本信息更是以爆炸性的速度增长。各类海量信息在给社会带来便利的同时,同时也为文本处理与分析带来了巨大的挑战,比如如何从这海量信息中快速准确的获得有效信息等。文本分割则是以主题相关的原则对文本进行分割,使得各语义段落之间具有最小的相似度,各语义段落内具有最大相似度,据此来寻找不同主题的边界。文本分割常用的方法有基于词汇聚集的方法、基于语言特征的方法和基于主题模型的方法。基于词汇聚集的方法忽略了词与词之间的关系,因而分割的准确性有限;基于语言特征的方法无法适用于所有的语料库,在特定的领域分割的效果较好。石晶等人提出了概率潜在语义分析模型和潜在狄利克雷模型的分割方法,Ridel等人将TextTiling和LDA模型相结合,通过对LDA模型每次采样得到的主题分布进行统计以确定最终的主题分布,提高了主题模型对文本表示的稳定性。上述这些方法都是基于主题模型的方法,该类方法能够反映出文本语义信息,因此提高了文本分割的准确性。然而基于LDA的TextTiling方法依赖于主题个数的人工设置。在实际应用中,主题个数的设置对文本分割效果的影响很大,如果主题个数设置过高会造成训练过拟合,设置过低会造成对文本的描述不够全面。传统文本分割算法普遍依赖于主题个数的人工设置,对于大型语料库很难去估计其中的主题个数,容易造成过拟合或者对文本描述不全面。
技术实现思路
为解决上述问题,本专利技术提出一种基于分 ...
【技术保护点】
1.一种基于分层狄利克雷模型的文本分割方法,其特征在于,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。
【技术特征摘要】
1.一种基于分层狄利克雷模型的文本分割方法,其特征在于,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。2.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,在所述步骤S2~S3之间还包括:构建新闻测试文档,通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割,并使用错误率Pk和WindowDiff作为评价指标进行验证。3.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计包括以下步骤:S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;S12,利用ICTCLAS平台对文本信息进行词语切分,去除无用的介词、虚词、数词词语,提取关键的词语进行处理,在得到新闻语料库的分词集合后利用词袋doc2bow实现词频统计。4.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型包括以下步骤:S21,设新闻语料库中的每篇文本的主题都来源于基分布H,从基分布H中获取该新闻语料库的总体基分布G0~DP(γ,H),其中γ是聚集参数;S22,构造每一篇文本的主题分布:Gj~DP(α0,G0),j=1,2,…,M,其中G0表示总体基分布,α0为聚集参数;S23,以每一篇文本的主题分布为基础,构造分层狄利克雷模型:θji|Gj~Gj,Xji|θji~F(θji)其中F(θji)表示在给定参数θji的情况下,变量Xji的分布;参数θji条件独立服从Gj分布,变量Xji条件独立服从F(θji)分布,Xji表示第j篇文本的第i个词。5.如权利要求1所叙述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割包括以...
【专利技术属性】
技术研发人员:陈建,王红凯,叶卫,龚小刚,王以良,唐锦江,郭亚琼,陈超,孙嘉赛,许敏,喻谦,吴哲翔,姜维,
申请(专利权)人:国网浙江省电力有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。