一种基于文本分割技术的多文档文摘方法技术

技术编号：8366765 阅读：204 留言：0更新日期：2013-02-28 05:16

本发明专利技术属于多文档文摘技术领域，提供了一种基于文本分割技术的多文档文摘方法，使用HowNet进行概念获取，建立概念向量空间模型，采用改进的DotPlotting模型和句子概念向量空间进行文本分割，利用建立的概念向量空间模型计算句子权重，根据句子权重、文本分割和相似度情况产生文摘，同时使用ROUGE-N评测方法和F_Score作为评测指标对产生的文摘进行评测，结果显示使用文本分割技术进行多文档摘要是有效的，该多文档文摘方法将把用户提供的相关文档集合形成文摘，并以适当的形式展现给用户，极大地提高了获取信息的效率，实用性强，具有较强的推广与应用价值。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多文档文摘
，尤其涉及。
技术介绍
在网络时代中，各类电子文本信息大量涌现，如何帮助用户在较少的时间从信息海洋中迅速准确地获得用户感兴趣的信息，日益成为自然语言理解领域的研究热点。多文档文摘是将同一主题的多个文本去除冗余信息，按照一定的压缩比有机地融合在一起的技术，该技术将把用户提供的相关文档集合形成文摘，并以适当的形式展现给用户，提高了获取信息的效率，并随着近几年连续举办的各类国际大型评测会议，相关技术有了较大突破。多文档文摘技术的特点是将同一主题下的文档集合进行有效的压缩，而这些文档集合虽属于同一主题，但往往从多个不同的方面和角度对事件进行论述，形成了所谓的子主题或子事件。传统文本处理技术以篇章作为基本处理单元，认为一篇文章只讨论一个主题，从句子重要度出发抽取若干文摘句，该方法容易造成对次重要主题的遗漏或忽略。秦兵等人提出了基于子主题的多文档文摘方法，孔庆苹等人基于概念获取的多文档主题划分。上述方法都考虑到了多文档包含多个子主题的特点，但这些方法多通过句子聚类法将各句子划分到相应主题下，然后提取文摘句。然而在实际的文档写作过程中，作者一般...

【技术保护点】
一种基于文本分割技术的多文档文摘方法，其特征在于，该多文档文摘方法包括以下步骤：步骤一，以“知网”作为工具获取概念，并以获取的概念作为特征建立概念向量空间模型；步骤二，使用改进的Dotpfotting算法进行文本分割，获得文本的主题划分；步骤三，利用建立的概念向量空间模型计算句子权重，根据句子权重、主题划分、句子相似度产生文摘。

【技术特征摘要】

【专利技术属性】
技术研发人员：王萌，唐新来，王晓荣，
申请(专利权)人：广西工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人