基于机器学习的中文自动文摘方法技术

技术编号:14010810 阅读:124 留言:0更新日期:2016-11-17 11:42
本发明专利技术提出了一种基于机器学习的中文自动文摘方法,包括:输入文本对文本并进行预处理;对预处理后的文本信息进行文本结构划分,将预处理后的文本划分为表征不同主题的多个意义段,并计算意义段重要度和段落重要度;对预处理后的文本进行概念获取,将文本中的所有词语表示转换为概念表示,并计算概念重要度、概念的频度、概念的位置;根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度;从各个意义段中抽取重要度大于预设值的句子;将上述重要度大于预设值的句子按照原文顺序排列,作为文摘结果进行输出。本发明专利技术可以实现对中文文本的自动摘要生成。

【技术实现步骤摘要】

本专利技术涉及人工智能
,特别涉及一种基于机器学习的中文自动文摘方法
技术介绍
国内在1985年,王兵在情报学报上发表了一篇名为《美国机编文摘概况》的文章,介绍了国外自动文摘的研究情况。之后国内学者开始了对自动文摘的探索工作,并着手研究中文自动文摘系统。经过近三十年的发展,国内在中文自动文摘研究方面取得了一定的成绩。上海交通大学在王永成教授的带领下研发了基于位置法和关键词法的中文文献自动编制文摘系统,集成多种文摘方法(例如,位置法、指示短语法、关键词法和标题法)的中文自动摘要系统。哈尔滨工业大学的王开铸教授在国家的资助下研制了面向军事领域的基于自然语言理解的文摘系统。北京邮电大学信息工程系的钟义信教授领导课题组开发了面向神经网络学习算法的理解型文摘系统。东北大学姚天顺教授和香港城市理工大学合作研究了一个基于自然语言理解的“中文全文自动摘要系统”。自动摘要是一项应用技术,它研究如何利用计算机自动的从自然语言文本中提取摘要,摘要应包含原文的核心内容或用户感兴趣的内容,并以语义连贯的段落乃至篇章形式输出。目前在整个世界上的中文处理领域,对于自动文摘技术进行研究并取得一定成果的单位主要有上海交通大学、哈尔滨工业大学、上海复旦大学、北京邮电大学、山西大学等学术单位,国内的其他商业公司如知网和北大方正集团对该领域的研究都处于初级阶段,以百度、腾讯、阿里为代表的新一代信息企业也是处于摸索阶段,而且他们关于自动文摘系统的研究,主要有基于意义的理解文摘和基于统计的机械文摘两种主要的研究方法。但是这两种理论的研究远远滞后于信息社会中信息处理的发展和要求。产生这种现象的原因主要是由于基于意义的理解文摘和基于统计的机械文摘系统都存在着一些弊端。对于基于意义的理解文摘,由于知识库的建立的困难性,知识表示的复杂性,使得他智能面向某一应用领域,并且文摘质量并不十分令人满意。对于基于统计的机械文摘,大多数采用的是基于词性统计的向量空间模型。这种方法以词性为基础,但是向量空间模型最基本的假设是向量各义项之间要正交,也就是意义不相关,而在真实的文本中,存在着相当多的一词多义和一义多词的现象,使作为义项的词语之间往往有很大的相关性。从而导致文摘的质量不高。在人工智能领域,做的比较好的国内企业主要有如下几家:百度,腾讯,阿里。他们的研究方向不同,技术路线也不尽相同,有各自的特点。百度的特点是连接人与信息,阿里巴巴是连接人与商品,腾讯是连接人与人。运用人工智能技术,百度,阿里,腾讯在他们所关注的领域都取得了很大的突破和技术进步。但是,他们也存在着明显的不足。百度搜索信息不专一,所以信息繁杂,人机交互可筛选性差,检索结果不专业,噪音数据较多,对于各专业领域做的垂直搜索支持不好,适合粗略搜索,不适合按行业精准搜索。其次其更新时间迅速的优势没有充分发挥,并且商业味太重,通常搜索的关键字的首页基本都价排名出价高的企业占据了,很难找到需要的真正自然搜索的结果。另外百度的搜索排名技术不够权威,搜索结果中广告、垃圾网站和死链比较多,真正有价值的信息过于稀少。检索结果的人工摘要较差,不能智能的计算出精细化的人工摘要。阿里重视商业模型,在人工智能的产品推荐算法和商品分类上有优势,但是阿里巴巴暂时提供的是信息交流,并且是死的信息,虽然信息是更新快,信息量多,信息真实,但是信息是死的,不会自动找到企业的,他们需要企业自己去找信息,由于阿里巴巴网站信息众多,所以有一些有用的信息很难一下子找到企业的,等企业通过努力找到这些信息的时候,这些信息却已经过时。腾讯虽然掌握着基于微信的社交信息数据,但其主要的盈利点在游戏上,大量的精力投身于游戏和商业模型的开发,对于社交数据并没有很好的利用,在对于利用数据产生价值的并投入不大,所以在人工智能和自然语言处理领域也没有突破性的产品出来。由于中文语言本身的特点和中文处理的复杂性,使得自动文本摘要的效果还不尽如人意,目前国内关于摘要的研究还处于起步的阶段,大多数研究成果只存在于实验室中,并没有成型的商业产品出现。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的目的在于提出一种基于机器学习的中文自动文摘方法,可以实现对中文文本的自动摘要生成。为了实现上述目的,本专利技术的实施例提供一种基于机器学习的中文自动文摘方法,包括如下步骤:步骤S1,输入文本,对所述文本并进行预处理;步骤S2,对预处理后的文本信息进行文本结构划分,将预处理后的文本划分为表征不同主题的多个意义段,并计算意义段重要度和段落重要度;步骤S3,对预处理后的文本进行概念获取,将文本中的所有词语表示转换为概念表示,并计算概念重要度、概念的频度、概念的位置;步骤S4,根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度;步骤S5,根据预设规则从各个意义段中抽取重要度大于预设值的句子;步骤S6,将上述重要度大于预设值的句子按照原文顺序排列,作为文摘结果进行输出。进一步,在所述步骤S1中,对文本进行预处理,包括:对文本进行分词、词性标注,提取词语、段落、句子的位置,根据停用词表过滤词语,提取有用词语并统计词频。进一步,在所述步骤S2中,构建段落的向量空间模型VSM,并建立段落相似度矩阵,根据所述段落相似度矩阵将预处理后的文本划分为表征不同主题的多个意义段。进一步,在所述步骤S3中,对预处理后的文本进行概念获取,合并同义词,并将所有的词语表示转换为概念表示,并计算概念频度。进一步,在所述步骤S5中,以意义段为单位,对各个句子按照重要度的大小进行排序,从中选取重要度大于预设值得多个句子。进一步,步骤S5还包括如下步骤:对生成的文摘进行去冗余处理,并利用句式匹配筛选出重要度高的句子。本专利技术实施例的基于机器学习的中文自动文摘方法,针对目前信息检索工具仅为用户提供一个简单文档列表来满足他们信息需求、缺少对检索结果合理管理的问题,基于向量空间模型,采用文本表示方式、文本相似度计算方法来度量文木之间的相似度,通过引用聚类实现了对检索结果的高效管理。本专利技术综合考虑PageRank算法和TextRank算法的优点,在进行句子重要性衡量时,同时考虑句子的权威性、与查询的相关性以及与已有文摘句的冗余性等因素,并通过实验将该方法与其它中文文档文摘方法基于不同候选句子集生成的文摘进行比较,证明了该方法的可行性。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的基于机器学习的中文自动文摘方法的流程图;图2为根据本专利技术另一个实施例的基于机器学习的中文自动文摘方法的流程图;图3为根据本专利技术实施例的中文自然语言处理流程图;图4为根据本专利技术实施例的文档的向量空间表示的示意图;图5为根据本专利技术实施例的自动文摘体系框架图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。在人工智能领本文档来自技高网
...
基于机器学习的中文自动文摘方法

【技术保护点】
一种基于机器学习的中文自动文摘方法,其特征在于,包括如下步骤:步骤S1,输入文本,对所述文本并进行预处理;步骤S2,对预处理后的文本信息进行文本结构划分,将预处理后的文本划分为表征不同主题的多个意义段,并计算意义段重要度和段落重要度;步骤S3,对预处理后的文本进行概念获取,将文本中的所有词语表示转换为概念表示,并计算概念重要度、概念的频度、概念的位置;步骤S4,根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度;步骤S5,根据预设规则从各个意义段中抽取重要度大于预设值的句子;步骤S6,将上述重要度大于预设值的句子按照原文顺序排列,作为文摘结果进行输出。

【技术特征摘要】
1.一种基于机器学习的中文自动文摘方法,其特征在于,包括如下步骤:步骤S1,输入文本,对所述文本并进行预处理;步骤S2,对预处理后的文本信息进行文本结构划分,将预处理后的文本划分为表征不同主题的多个意义段,并计算意义段重要度和段落重要度;步骤S3,对预处理后的文本进行概念获取,将文本中的所有词语表示转换为概念表示,并计算概念重要度、概念的频度、概念的位置;步骤S4,根据对文本划分的结构信息、概念的频度、概念的位置、段落重要度、意义段重要度计算得到句子的重要度;步骤S5,根据预设规则从各个意义段中抽取重要度大于预设值的句子;步骤S6,将上述重要度大于预设值的句子按照原文顺序排列,作为文摘结果进行输出。2.如权利要求1所述的基于机器学习的中文自动文摘方法,其特征在于,在所述步骤S1中,对文本进行预处理,包括:对文本进行分词、词性标注,提取词语、段落、句子...

【专利技术属性】
技术研发人员:高强曹志松顾海英
申请(专利权)人:北京鼎泰智源科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1