一种新闻关键信息的提取方法及系统技术方案

技术编号:13829742 阅读:40 留言:0更新日期:2016-10-13 16:12
本发明专利技术公开了一种新闻关键信息的提取方法及系统,该系统首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文;根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源,最后可根据已获得新闻的标题、时间、来源和正文,将获得的内容以换行符为分隔符,以此为顺序写入本地文件中。具有较高的准确率,且不依赖特定的网页模板,具有较强的实用性和鲁棒性;同时,本发明专利技术方法复杂度低,提取的结果更为精确,消耗的资源更少。

【技术实现步骤摘要】

本专利技术涉及自然语言处理
,涉及一种新闻关键信息提取方法及系统。
技术介绍
新闻作为人们获取信息的一大来源,从过去单一的纸媒发展到现在已是以网媒为主的多媒体共存的局面。由于互联网中的信息交换具有不受空间限制、更新速度快、信息交换成本低等特点,目前它已成为新闻传播最有力的工具。然而,现在的新闻网页中存在不少于内容不相关的广告、或一些链接(统称为噪声),干扰用户的阅读与体验,如图1所示。其次,由于目前几家大的新闻门户网站通过自己的App或旗下的PC应用推送新闻消息外,用户获取新闻信息的更多渠道还是通过搜索引擎。但搜索引擎对结果中的信息整合还做的不够好,用户很容易就淹没在信息的海洋里,却仍无法获取足够多的需要的信息。而新闻网页的关键信息提取是搜索引擎优化、信息聚类的基础。信息抽取的概念最早是在1996年由Jim Cowie和Yorick Wilks提出的,他们称信息抽取就是任何能够选择性的将显式或隐式的文本进行组织和结合的方法,该概念的提出是为了解决互联网中信息量大且过于繁杂的问题。针对不同的信息抽取需求,不同的学者提出的方法也不尽相同。比如,识别网页中的实体(如:人名、地名、事件名、时间等),识别生物期刊摘要中的人体蛋白质名称;根据抽取规则生成方式的不同,又可以分为自动生成和半自动生成两类。对于网页正文的提取,国内外也已有许多方法,简单归类如下:基于网页标签。这类方法依赖HTML语言中的闭合标签对(如:<table></table>)或起分割作用标签(如:<p>、<br>)进行提取。但HTML语言本身对使用者来说
不具有标准的格式,再加上CSS盛行之后,为了显示的美观而添加的各类元素使得页面内容变得更为复杂,因此,该方法并不具备鲁棒性。基于模板。该方法通过给定的模板将需要的网页信息输出,优点在于准确率较其他方法高;缺点是如果为每个待提取的网页都设计模板,计算和时间开销大,缺乏通用性。基于DOM树结构。HTML网页可以解析成DOM树的结构,然后根据DOM树的结构特性提取正文。比如可以首先确定部分正文内容,然后依据路径相似度寻找其他正文,最终合并为网页正文。基于布局相似性。网页所属网站的网页具有布局相似的特点,在同一个网站多个网页中频繁出现的内容具有极大概率为噪音。该方法不具备实时性,在对于某一网页进行提取时,必须先获取与其布局类似的其他网页。基于视觉热区。这种方法则是依据人们在浏览网页时视觉频繁停留的区域去判断正文的位置进行提取。该方法的理论支撑不足,同时也缺乏大量的视觉数据支持该研究。此外,还有不同方法的结合以及融合了机器学习的方法。综上所述,以上提及的方法或过时,或效率低,又或者简单问题复杂化,不具备通用性、实时性;而且,没有现成的能够完全满足我们提取需求的方法。
技术实现思路
为了解决上述问题,本专利技术提出了一种新闻关键信息的提取方法及系统,该系统首先通过预处理将网页转换成行号和文本的集合,然后根据字数最长的一句话出现在新闻正文的概率极高的特点,从正文中间开始向两端寻找正文的起点和终点提取新闻正文;根据最长公共子串算法提取标题,构造正则表达式并以行号辅助判断提取时间,根据来源的格式特点并辅以行号提取来源。为了实现上述目的,本专利技术采用以下技术方案:一种新闻关键信息的提取方法,包括以下步骤:1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本;2)从所述文本中获取<title></title>标签对中的内容,逐行匹配获得新闻标题;3)采用常规的时间模板,并以对应的顺序为优先级,匹配每一行所包含的时间,将得出的时间timeString和所在行的行号linenumber加入候选集;对候选集进行过滤后按时间模板的优先级排序,选取排在最前面的时间为新闻的发布时间;4)以中文字符长度最长的一行文本为起点,分别向上和向下寻找正文的边界,以确定新闻的正文;5)根据已获得的新闻标题,发布时间和正文第一行的行号对新闻来源进行提取。进一步地,上述方法还包括根据提取得到的新闻标题、发布时间、来源和正文,中间添加换行符为分隔符,依次存入本地文件。进一步地,步骤1)包括如下步骤:1-1)删除不包含正文内容的标签对;1-2)将HTML实体名称和编号替换为英文空格;1-3)将<a>和</a>标签分别替换为文本linktext和textlink;1-4)将强调文字的标签<strong>和调整格式的标签<span>替换为空,只留下标签中的文本。进一步地,步骤2)的具体步骤如下:2‐1)获取网页中<title></title>标签对中的文本内容,记为DemoTitle;2‐2)从网页内容中将<title></title>标签对及内容删除;2‐3)逐行扫描剩下网页的文本内容,找出每一行的内容与DemoTitle的最长公共字串,将长度不为零的公共子串的行号linenumber和内容titleString存入候选集中;2‐4)按titleString的长度对候选集进行降序排列,选择titleString的长度最长的元素作为新闻标题。进一步地,步骤3)中常规的时间模板及对应的顺序如下:3‐1)YY年MM月DD日hh:mm:ss3‐2)YY/MM/DD hh:mm:ss3‐3)YY-MM-DD hh:mm3‐4)YY-MM-DD,其中,YY、MM、DD分别表示年、月、日,hh、mm、ss分别表示小时、分钟、秒。进一步地,步骤3)中,所述过滤是指在获得最长文本的行号后,对候选集里的时间进行过滤,删除行号大于最长文本行号的项。进一步地,步骤4)具体包括:4‐1)将通过文本过滤器且文本长度大于K的文本加入候选集C,从候选集C中选出长度最长的文本,返回行号Nlongest,所述文本过滤器过滤的文本包括“免责声明”,“Copyright”,“相关新闻”;4‐2)从第Nlongest行开始,分别向上和向下去寻找正文部分的起点和终点,得到正文候选集resultSet;4‐3)对resultSet中行号小于时间行的数据进行删除,保留resultSet中剩余的内容作为新闻的正文。进一步地,步骤4-2)中边界的确定由行距和行的HTML标签共同决定,判定条件有以下两种:a)只比较行距,若距离大于设定的距离阈值Distance1,则认为到达边界;b)比较行距的同时考虑HTML的标签,在标签与已确定为正文的最后一行文本的标签相同的情况下,若距离大于设定的距离阈值Distance2,则认为到达边界。进一步地,步骤5)中,通过匹配“来源”关键字或在时间行的前后对新闻来源进行提取。一种新闻关键信息的提取系统,包括:预处理模块,用于对新闻网页进行预处理,将原HTML网页转换成由行号和HTML标签组成的文本;标题提取模块,用于从预处理后的文本中获取<title></title>标签对中的内容,然后根据求两个字符串最长公共子串的方法,逐行匹配获得新闻标题;时间提取模块,用于采用常规时间模板,并以对应的顺序为优先级,匹配每一行所包含的时间,将得出的本文档来自技高网
...

【技术保护点】
一种新闻关键信息的提取方法,包括以下步骤:1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本;2)从所述文本中获取<title></title>标签对中的内容,逐行匹配获得新闻标题;3)采用常规的时间模板,并以对应的顺序为优先级,匹配每一行所包含的时间,将得出的时间timeString和所在行的行号linenumber加入候选集;对候选集进行过滤后按时间模板的优先级排序,选取排在最前面的时间为新闻的发布时间;4)以中文字符长度最长的一行文本为起点,分别向上和向下寻找正文的边界,以确定新闻的正文;5)根据已获得的新闻标题,发布时间和正文第一行的行号对新闻来源进行提取。

【技术特征摘要】
1.一种新闻关键信息的提取方法,包括以下步骤:1)将新闻网页由原HTML网页转换成由行号和HTML标签组成的文本;2)从所述文本中获取<title></title>标签对中的内容,逐行匹配获得新闻标题;3)采用常规的时间模板,并以对应的顺序为优先级,匹配每一行所包含的时间,将得出的时间timeString和所在行的行号linenumber加入候选集;对候选集进行过滤后按时间模板的优先级排序,选取排在最前面的时间为新闻的发布时间;4)以中文字符长度最长的一行文本为起点,分别向上和向下寻找正文的边界,以确定新闻的正文;5)根据已获得的新闻标题,发布时间和正文第一行的行号对新闻来源进行提取。2.如权利要求1所述的新闻关键信息的提取方法,其特征在于,还包括根据提取得到的新闻标题、发布时间、来源和正文,中间添加换行符为分隔符,依次存入本地文件。3.如权利要求1所述的新闻关键信息的提取方法,其特征在于,步骤1)包括如下步骤:1-1)删除不包含正文内容的标签对;1-2)将HTML实体名称和编号替换为英文空格;1-3)将<a>和</a>标签分别替换为文本linktext和textlink;1-4)将强调文字的标签<strong>和调整格式的标签<span>替换为空,只留下标签中的文本。4.如权利要求1所述的新闻关键信息的提取方法,其特征在于,步骤2)的具体步骤如下:2‐1)获取网页中<title></title>标签对中的文本内容,记为DemoTitle;2‐2)从网页内容中将<title></title>标签对及内容删除;2‐3)逐行扫描剩下网页的文本内容,找出每一行的内容与DemoTitle的最长公共字串,将长度不为零的公共子串的行号linenumber和内容titleString存入候选集中;2‐4)按titleString的长度对候选集进行降序排列,选择titleString的长度最长的元素作为新闻标题。5.如权利要求1所述的新闻关键信息的提取方法,其特征在于,步骤3)中常规的时间模板及对应的顺序如下:3‐1)YY年MM月DD日hh:mm:ss3‐2)YY/MM/DD hh:mm:ss3‐3)YY-MM-DD hh:mm3‐4)...

【专利技术属性】
技术研发人员:李晓东向菁菁耿光刚
申请(专利权)人:中国互联网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1