【技术实现步骤摘要】
本专利技术属于多文档文摘
,尤其涉及。
技术介绍
在网络时代中,各类电子文本信息大量涌现,如何帮助用户在较少的时间从信息海洋中迅速准确地获得用户感兴趣的信息,日益成为自然语言理解领域的研究热点。多文档文摘是将同一主题的多个文本去除冗余信息,按照一定的压缩比有机地融合在一起的技术,该技术将把用户提供的相关文档集合形成文摘,并以适当的形式展现给用户,提高了获取信息的效率,并随着近几年连续举办的各类国际大型评测会议,相关技术有了较大突破。多文档文摘技术的特点是将同一主题下的文档集合进行有效的压缩,而这些文档集合虽属于同一主题,但往往从多个不同的方面和角度对事件进行论述,形成了所谓的子主题或子事件。传统文本处理技术以篇章作为基本处理单元,认为一篇文章只讨论一个主题,从句子重要度出发抽取若干文摘句,该方法容易造成对次重要主题的遗漏或忽略。秦兵等人提出了基于子主题的多文档文摘方法,孔庆苹等人基于概念获取的多文档主题划分。上述方法都考虑到了多文档包含多个子主题的特点,但这些方法多通过句子聚类法将各句子划分到相应主题下,然后提取文摘句。然而在实际的文档写作过程中,作者一般 ...
【技术保护点】
一种基于文本分割技术的多文档文摘方法,其特征在于,该多文档文摘方法包括以下步骤:步骤一,以“知网”作为工具获取概念,并以获取的概念作为特征建立概念向量空间模型;步骤二,使用改进的Dotpfotting算法进行文本分割,获得文本的主题划分;步骤三,利用建立的概念向量空间模型计算句子权重,根据句子权重、主题划分、句子相似度产生文摘。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。