基于机器学习的中文自动文摘方法技术

技术编号：14010810 阅读：124 留言：0更新日期：2016-11-17 11:42

本发明专利技术提出了一种基于机器学习的中文自动文摘方法，包括：输入文本对文本并进行预处理；对预处理后的文本信息进行文本结构划分，将预处理后的文本划分为表征不同主题的多个意义段，并计算意义段重要度和段落重要度；对预处理后的文本进行概念获取，将文本中的所有词语表示转换为概念表示，并计算概念重要度、概念的频度、概念的位置；根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度；从各个意义段中抽取重要度大于预设值的句子；将上述重要度大于预设值的句子按照原文顺序排列，作为文摘结果进行输出。本发明专利技术可以实现对中文文本的自动摘要生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能
，特别涉及一种基于机器学习的中文自动文摘方法。
技术介绍
国内在1985年，王兵在情报学报上发表了一篇名为《美国机编文摘概况》的文章，介绍了国外自动文摘的研究情况。之后国内学者开始了对自动文摘的探索工作，并着手研究中文自动文摘系统。经过近三十年的发展，国内在中文自动文摘研究方面取得了一定的成绩。上海交通大学在王永成教授的带领下研发了基于位置法和关键词法的中文文献自动编制文摘系统，集成多种文摘方法(例如，位置法、指示短语法、关键词法和标题法)的中文自动摘要系统。哈尔滨工业大学的王开铸教授在国家的资助下研制了面向军事领域的基于自然语言理解的文摘系统。北京邮电大学信息工程系的钟义信教授领导课题组开发了面向神经网络学习算法的理解型文摘系统。东北大学姚天顺教授和香港城市理工大学合作研究了一个基于自然语言理解的“中文全文自动摘要系统”。自动摘要是一项应用技术，它研究如何利用计算机自动的从自然语言文本中提取摘要，摘要应包含原文的核心内容或用户感兴趣的内容，并以语义连贯的段落乃至篇章形式输出。目前在整个世界上的中文处理领域，对于自动文摘技术进行研究并取得一定成果的单位主要有上海交通大学、哈尔滨工业大学、上海复旦大学、北京邮电大学、山西大学等学术单位，国内的其他商业公司如知网和北大方正集团对该领域的研究都处于初级阶段，以百度、腾讯、阿里为代表的新一代信息企业也是处于摸索阶段，而且他们关于自动文摘系统的研究，主要有基于意义的理解文摘和基于统计的机械文摘两种主要的研究方法。但是这两种理论的研究远远滞后于信息社会中信息处理的发展和要求。产生这种现象...
基于机器学习的中文自动文摘方法

【技术保护点】
一种基于机器学习的中文自动文摘方法，其特征在于，包括如下步骤：步骤S1，输入文本，对所述文本并进行预处理；步骤S2，对预处理后的文本信息进行文本结构划分，将预处理后的文本划分为表征不同主题的多个意义段，并计算意义段重要度和段落重要度；步骤S3，对预处理后的文本进行概念获取，将文本中的所有词语表示转换为概念表示，并计算概念重要度、概念的频度、概念的位置；步骤S4，根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度；步骤S5，根据预设规则从各个意义段中抽取重要度大于预设值的句子；步骤S6，将上述重要度大于预设值的句子按照原文顺序排列，作为文摘结果进行输出。

【技术特征摘要】
1.一种基于机器学习的中文自动文摘方法，其特征在于，包括如下步骤：步骤S1，输入文本，对所述文本并进行预处理；步骤S2，对预处理后的文本信息进行文本结构划分，将预处理后的文本划分为表征不同主题的多个意义段，并计算意义段重要度和段落重要度；步骤S3，对预处理后的文本进行概念获取，将文本中的所有词语表示转换为概念表示，并计算概念重要度、概念的频度、概念的位置；步骤S4，根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度；步骤S5，根据预设规则从各个意义段中抽取重要度大于预设值的句子；步骤S6，将上述重要度大于预设值的句子按照原文顺序排列，作为文摘结果进行输出。2.如权利要求1所述的基于机器学习的中文自动文摘方法，其特征在于，在所述步骤S1中，对文本进行预处理，包括：对文本进行分词、词性标注，提取词语、段落、句子...

【专利技术属性】
技术研发人员：高强，曹志松，顾海英，
申请(专利权)人：北京鼎泰智源科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人