一种新闻关键信息的提取方法及系统技术方案

技术编号：13829742 阅读：40 留言：0更新日期：2016-10-13 16:12

本发明专利技术公开了一种新闻关键信息的提取方法及系统，该系统首先通过预处理将网页转换成行号和文本的集合，然后根据字数最长的一句话出现在新闻正文的概率极高的特点，从正文中间开始向两端寻找正文的起点和终点提取新闻正文；根据最长公共子串算法提取标题，构造正则表达式并以行号辅助判断提取时间，根据来源的格式特点并辅以行号提取来源，最后可根据已获得新闻的标题、时间、来源和正文，将获得的内容以换行符为分隔符，以此为顺序写入本地文件中。具有较高的准确率，且不依赖特定的网页模板，具有较强的实用性和鲁棒性；同时，本发明专利技术方法复杂度低，提取的结果更为精确，消耗的资源更少。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理
，涉及一种新闻关键信息提取方法及系统。
技术介绍
新闻作为人们获取信息的一大来源，从过去单一的纸媒发展到现在已是以网媒为主的多媒体共存的局面。由于互联网中的信息交换具有不受空间限制、更新速度快、信息交换成本低等特点，目前它已成为新闻传播最有力的工具。然而，现在的新闻网页中存在不少于内容不相关的广告、或一些链接(统称为噪声)，干扰用户的阅读与体验，如图1所示。其次，由于目前几家大的新闻门户网站通过自己的App或旗下的PC应用推送新闻消息外，用户获取新闻信息的更多渠道还是通过搜索引擎。但搜索引擎对结果中的信息整合还做的不够好，用户很容易就淹没在信息的海洋里，却仍无法获取足够多的需要的信息。而新闻网页的关键信息提取是搜索引擎优化、信息聚类的基础。信息抽取的概念最早是在1996年由Jim Cowie和Yorick Wilks提出的，他们称信息抽取就是任何能够选择性的将显式或隐式的文本进行组织和结合的方法，该概念的提出是为了解决互联网中信息量大且过于繁杂的问题。针对不同的信息抽取需求，不同的学者提出的方法也不尽相同。比如，识别网页中的实体(如：人名、地名、事件名、时间等)，识别生物期刊摘要中的人体蛋白质名称；根据抽取规则生成方式的不同，又可以分为自动生成和半自动生成两类。对于网页正文的提取，国内外也已有许多方法，简单归类如下：基于网页标签。这类方法依赖HTML语言中的闭合标签对(如：<table></table>)或起分割作用标签(如：<p>、<br>)进行提取。但HTML语言本身对...

【技术保护点】
一种新闻关键信息的提取方法，包括以下步骤：1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本；2)从所述文本中获取<title></title>标签对中的内容，逐行匹配获得新闻标题；3)采用常规的时间模板，并以对应的顺序为优先级，匹配每一行所包含的时间，将得出的时间timeString和所在行的行号linenumber加入候选集；对候选集进行过滤后按时间模板的优先级排序，选取排在最前面的时间为新闻的发布时间；4)以中文字符长度最长的一行文本为起点，分别向上和向下寻找正文的边界，以确定新闻的正文；5)根据已获得的新闻标题，发布时间和正文第一行的行号对新闻来源进行提取。

【技术特征摘要】
1.一种新闻关键信息的提取方法，包括以下步骤：1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本；2)从所述文本中获取<title></title>标签对中的内容，逐行匹配获得新闻标题；3)采用常规的时间模板，并以对应的顺序为优先级，匹配每一行所包含的时间，将得出的时间timeString和所在行的行号linenumber加入候选集；对候选集进行过滤后按时间模板的优先级排序，选取排在最前面的时间为新闻的发布时间；4)以中文字符长度最长的一行文本为起点，分别向上和向下寻找正文的边界，以确定新闻的正文；5)根据已获得的新闻标题，发布时间和正文第一行的行号对新闻来源进行提取。2.如权利要求1所述的新闻关键信息的提取方法，其特征在于，还包括根据提取得到的新闻标题、发布时间、来源和正文，中间添加换行符为分隔符，依次存入本地文件。3.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤1)包括如下步骤：1-1)删除不包含正文内容的标签对；1-2)将HTML实体名称和编号替换为英文空格；1-3)将<a>和</a>标签分别替换为文本linktext和textlink；1-4)将强调文字的标签<strong>和调整格式的标签<span>替换为空，只留下标签中的文本。4.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤2)的具体步骤如下：2‐1)获取网页中<title></title>标签对中的文本内容，记为DemoTitle；2‐2)从网页内容中将<title></title>标签对及内容删除；2‐3)逐行扫描剩下网页的文本内容，找出每一行的内容与DemoTitle的最长公共字串，将长度不为零的公共子串的行号linenumber和内容titleString存入候选集中；2‐4)按titleString的长度对候选集进行降序排列，选择titleString的长度最长的元素作为新闻标题。5.如权利要求1所述的新闻关键信息的提取方法，其特征在于，步骤3)中常规的时间模板及对应的顺序如下：3‐1)YY年MM月DD日hh:mm:ss3‐2)YY/MM/DD hh:mm:ss3‐3)YY-MM-DD hh:mm3‐4)...

【专利技术属性】
技术研发人员：李晓东，向菁菁，耿光刚，
申请(专利权)人：中国互联网络信息中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人