一种基于概念语义基元的文摘自动生成方法技术

技术编号：12852659 阅读：50 留言：0更新日期：2016-02-11 16:53

本发明专利技术涉及一种基于概念语义基元的文摘自动生成方法，包含：利用概念语义基元作为语义计算和文档内容表示的载体，通过对文档语义内容的汇聚，获取文档内容的语义重心，然后根据语义重心选择代表文档内容的文摘句构成文档摘要的自动生成方法。本发明专利技术利用潜在狄利克雷分配(LDA)模型对文档主题进行建模，实现主题生成处理，按照主题重要度选择文摘句。在计算过程中引入概念层次网络符号，并利用其中的语义层次关系实现对语义信息的归并，改善以词语作为语义计算单元而造成的数据稀疏问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言文本智能分析领域，特别涉及一种基于概念语义基元的文摘自动生成方法。
技术介绍
信息技术的飞速发展，互联网进入人们的日常生活。信息传输的瓶颈已经打破，人们可以方便地接触到海量的信息内容。如何从中快速了解信息内容，已经成为当前智能信息处理发展的方向和技术研究的热点。特别是随着互联网上文档信息的急剧膨胀，用户面对大量的文档信息，迫切需要能够有效处理这些文档信息的工具。自动文本摘要，是以自然语言处理技术为基础，通过对文档内容进行分析处理，自动生成文档摘要内容的智能文本处理应用技术。自动文本摘要可以为用户提供文档内容的概要性描述，对文档文字进行浓缩，便于用户在有限的时间内了解更多的文档信息。特别是随着移动互联网的普及，经过文摘浓缩的文字内容更适合在诸如手机、平板电脑等移动设备上呈现和展示，方便用户随时随地了解信息。计算机自动文摘处理一般采用摘录的方式生成文本摘要。这一处理方式将文档看作是其组成句子的集合，对原文档中的所有句子按一定的方式计算重要程度的权值，然后按照权值的高低降序排列，选择权值高的若干句子作为文摘句。尽管这种方式自动形成的摘要常常会缺乏连贯性，但这一结果对用户了解该文档主要内容，判断是否有进一步阅读价值有帮助，因此已为用户所接受。摘录式自动文摘更注重于摘录语句的内容是否有代表性，而较少考虑生成摘要的连贯性，语句的简洁等其他方面的因素。摘录式自动文摘从方法上可以分为有监督的处理方法和无监督的处理方法。有监督的方法基于大量人工制作的摘录文摘，利用机器学习算法，对于文摘句的特征进行学习训...

【技术保护点】
一种基于概念语义基元的文摘自动生成方法，所述方法包含：步骤101)利用文档中语句的语义信息对文档主题进行LDA建模，获得语义主题模型；步骤102)根据获得的语义主题模型，即LDA模型，进一步计算文档的语义重心，所述文档的语义重心指文档的“语句‑‑主题分布”和“主题‑‑概念语义基元分布”；步骤103)根据语义重心的表述，选择若干语句作为文摘句进行输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：张全，袁毅，韦向峰，丛培民，杜义华，池毓焕，
申请(专利权)人：中国科学院声学研究所，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人