一种基于分层狄利克雷模型的文本分割方法技术

技术编号:21247251 阅读:43 留言:0更新日期:2019-06-01 07:31
本发明专利技术属于文本分割技术领域,尤其涉及一种基于分层狄利克雷模型的文本分割方法,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。通过使用本发明专利技术,可以实现以下效果:该方法使得文本分割不再依赖于主题个数的人工设置,通过分层狄利克雷过程模型自动生成主题向量,提高了文本分割的效率。

A Text Segmentation Method Based on Hierarchical Dirichlet Model

The invention belongs to the field of text segmentation technology, and particularly relates to a text segmentation method based on hierarchical Dirichlet model, which includes the following steps: S1, acquisition of news corpus, preprocessing of news corpus, acquisition of word segmentation set of the whole news corpus, and word frequency statistics of word segmentation set; S2, putting the results of statistical word frequency into hierarchical Dirichlet process model. Training, preserve the trained hierarchical Dirichlet process model; S3, through the trained hierarchical Dirichlet process model, get the subject vectors of each word in the text to be segmented, and realize text segmentation according to the subject vectors. By using the invention, the following effects can be achieved: the method makes the text segmentation no longer depend on the manual setting of the number of topics, and automatically generates the subject vector by hierarchical Dirichlet process model, thus improving the efficiency of text segmentation.

【技术实现步骤摘要】
一种基于分层狄利克雷模型的文本分割方法
本专利技术属于文本分割
,尤其涉及一种基于分层狄利克雷模型的文本分割方法。
技术介绍
随着网络的快速发展,人们逐渐跨入全新的网络时代,各种电子文本信息更是以爆炸性的速度增长。各类海量信息在给社会带来便利的同时,同时也为文本处理与分析带来了巨大的挑战,比如如何从这海量信息中快速准确的获得有效信息等。文本分割则是以主题相关的原则对文本进行分割,使得各语义段落之间具有最小的相似度,各语义段落内具有最大相似度,据此来寻找不同主题的边界。文本分割常用的方法有基于词汇聚集的方法、基于语言特征的方法和基于主题模型的方法。基于词汇聚集的方法忽略了词与词之间的关系,因而分割的准确性有限;基于语言特征的方法无法适用于所有的语料库,在特定的领域分割的效果较好。石晶等人提出了概率潜在语义分析模型和潜在狄利克雷模型的分割方法,Ridel等人将TextTiling和LDA模型相结合,通过对LDA模型每次采样得到的主题分布进行统计以确定最终的主题分布,提高了主题模型对文本表示的稳定性。上述这些方法都是基于主题模型的方法,该类方法能够反映出文本语义信息,因此提高了文本分割的准确性。然而基于LDA的TextTiling方法依赖于主题个数的人工设置。在实际应用中,主题个数的设置对文本分割效果的影响很大,如果主题个数设置过高会造成训练过拟合,设置过低会造成对文本的描述不够全面。传统文本分割算法普遍依赖于主题个数的人工设置,对于大型语料库很难去估计其中的主题个数,容易造成过拟合或者对文本描述不全面。
技术实现思路
为解决上述问题,本专利技术提出一种基于分层狄利克雷模型的文本分割方法,使得文本分割不再依赖于主题个数的人工设置。一种基于分层狄利克雷模型的文本分割方法,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。优选的,在所述步骤S2~S3之间还包括:构建新闻测试文档,通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割,并使用错误率Pk和WindowDiff作为评价指标进行验证。优选的,所述获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计包括以下步骤:S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;S12,利用ICTCLAS平台对文本信息进行词语切分,去除无用的介词、虚词、数词词语,提取关键的词语进行处理,在得到新闻语料库的分词集合后利用词袋doc2bow实现词频统计。优选的,所述将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型包括以下步骤:S21,设新闻语料库中的每篇文本的主题都来源于基分布H,从基分布H中获取该新闻语料库的总体基分布G0~DP(γ,H),其中γ是聚集参数;S22,构造每一篇文本的主题分布:Gj~DP(α0,G0),j=1,2,…,M,其中G0表示总体基分布,α0为聚集参数;S23,以每一篇文本的主题分布为基础,构造分层狄利克雷模型:θji|Gj~Gj,Xji|θji~Fθji)其中Fθji)表示在给定参数θji的情况下,变量Xji的分布;参数θji条件独立服从Gj分布,变量Xji条件独立服从F(θji)分布,Xji表示第j篇文本的第i个词。优选的,所述通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割包括以下步骤:S31,构建主题向量对待分割文本进行预处理,得到待分割文本的分词集合并统计词频,将统计词频后的结果放入分层狄利克雷过程模型,分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID,设主题向量表示为:T=(topic1,topic2,…,topicn),其中topict为主题IDt在待分割文本中出现的频率;n表示分层狄利克雷过程模型自动生成的主题个数;S32,主题向量的余弦相似度计算以一个句子Sn作为待分割文本中的最小的基本单位,使用分层狄利克雷过程模型得到的主题向量作为句子的表示,得到句子e和f的主题向量Se=(x1,x2,…,xn),Sf=(y1,y2,…,yn),n表示分层狄利克雷过程模型自动生成的主题个数;在相邻句子间的每个位置p,计算相邻句子的相似度Cp:其中Se和Sf表示句子e和f的主题向量;S33,实现文本分割计算每个位置p的深度值Dp,通过查看左右两侧的最高相似度来测量最小深度值,判断公式:Dp=1/2(hl(p)-Cp+hr(p)-Cp),其中,函数hl(p)返回序列间隙索引I左侧的最高相似度,hr(p)则返回右侧的最高相似度,基于深度分数搜索局部最大位置,对获得的最大值得分进行排序,如果输入N个段落,则将N个最高深度值作为判断语义段落边界的依据,否则如果深度值大于α-β/2,则预测出边界,其中α表示平均深度值,β表示在深度值的标准偏差。优选的,所述错误率Pk的计算方法如下:Pk=P(s)*P(miss)+P(false_alarm)(1-P(s))其中P(s)表示距离为k的两个句子属于不同语义段落的概率;相反1-P(s)就表示距离为k的两个句子属于相同段落的概率;P(miss)表示算法分割结果缺少一个段落的概率;P(false_alarm)则表示算法分割结果添加一个段落的概率。优选的,所述WindowDiff的计算方法如下:其中Ref表示文档的真实分割;Hyp表示算法分割;函数B(i,j)表示整句Sentencei和整句Sentencej的边界数量;S_N表示文本中整句的数量;设k为真实分割中片段平均长度的一半。通过使用本专利技术,可以实现以下效果:该方法使得文本分割不再依赖于主题个数的人工设置,通过分层狄利克雷过程模型自动生成主题向量,提高了文本分割的效率。附图说明下面结合附图和具体实施方式对本专利技术作进一步详细的说明。图1是本专利技术实施例的整体流程示意图;图2是本专利技术实施例中步骤S1的流程示意图;图3是本专利技术实施例中步骤S2的流程示意图;图4是本专利技术实施例中步骤S4的流程示意图。具体实施方式以下结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。本专利技术的主要思想是对待分割文本进行预处理,得到待分割文本的分词集合并统计词频,将统计词频后的结果放入分层狄利克雷过程模型,分层狄利克雷过程模型在每次迭代推理过程中为每个词分配主题ID,从而得到主题向量。该方法使得文本分割不再依赖于主题个数的人工设置,通过分层狄利克雷过程模型自动生成主题向量,提高了文本分割的效率。如图1所示,本专利技术实施例提出一种基于分层狄利克雷模型的文本分割方法,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;如图2所示,具体包括以下步骤:S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;新闻语料库中包含了很多脚本代码,利用Python的BeautifulSoup库解本文档来自技高网...

【技术保护点】
1.一种基于分层狄利克雷模型的文本分割方法,其特征在于,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。

【技术特征摘要】
1.一种基于分层狄利克雷模型的文本分割方法,其特征在于,包括以下步骤:S1,获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计;S2,将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型;S3,通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割。2.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,在所述步骤S2~S3之间还包括:构建新闻测试文档,通过训练好的分层狄利克雷过程模型对新闻测试文档文本分割,并使用错误率Pk和WindowDiff作为评价指标进行验证。3.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述获取新闻语料库,对新闻语料库进行预处理,获得整个新闻语料库的分词集合,并对分词集合做词频统计包括以下步骤:S11,利用BeautifulSoup库解析新闻语料库中的HTML文本,保留文本信息;S12,利用ICTCLAS平台对文本信息进行词语切分,去除无用的介词、虚词、数词词语,提取关键的词语进行处理,在得到新闻语料库的分词集合后利用词袋doc2bow实现词频统计。4.如权利要求1所述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述将统计词频后的结果放入分层狄利克雷过程模型训练,保存训练好的分层狄利克雷过程模型包括以下步骤:S21,设新闻语料库中的每篇文本的主题都来源于基分布H,从基分布H中获取该新闻语料库的总体基分布G0~DP(γ,H),其中γ是聚集参数;S22,构造每一篇文本的主题分布:Gj~DP(α0,G0),j=1,2,…,M,其中G0表示总体基分布,α0为聚集参数;S23,以每一篇文本的主题分布为基础,构造分层狄利克雷模型:θji|Gj~Gj,Xji|θji~F(θji)其中F(θji)表示在给定参数θji的情况下,变量Xji的分布;参数θji条件独立服从Gj分布,变量Xji条件独立服从F(θji)分布,Xji表示第j篇文本的第i个词。5.如权利要求1所叙述的基于分层狄利克雷模型的文本分割方法,其特征在于,所述通过训练好的分层狄利克雷过程模型获取待分割文本中每个词的主题向量,根据主题向量实现文本分割包括以...

【专利技术属性】
技术研发人员:陈建王红凯叶卫龚小刚王以良唐锦江郭亚琼陈超孙嘉赛许敏喻谦吴哲翔姜维
申请(专利权)人:国网浙江省电力有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1