一种提取互联网上内容信息的方法及系统技术方案

技术编号:18237819 阅读:50 留言:0更新日期:2018-06-17 01:05
本发明专利技术提供了一种提取互联网上内容信息的方法,包括如下步骤:响应于待提取内容的输入指令;识别所述输入指令,并根据识别结果选择分类类别;使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。本发明专利技术的方案,为用户提供设置接口,可以直接获取目标网页中的内容信息,并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容,此外,还可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。 1

Method and system for extracting content information on Internet

The present invention provides a method for extracting content information on the Internet, including the following steps: input instructions responding to the content to be extracted, identifying the input instructions, selecting classification categories according to the recognition results, and analyzing the input instructions using the classified category to generate the internal correlation with the classified category. The content set includes the content to be extracted; the content set is sorted in accordance with the correlation coefficient associated with the input instruction, and is displayed on the display. The scheme provides the user with the setting interface, which can directly obtain the content information in the target web page, and does not have to rely on whether the information web site releases the RSS and the published RSS content, and can extract more detailed information from the wider information source. In addition, it can also save the content information. In order to improve the browsing speed of users, users are visited locally. One

【技术实现步骤摘要】
一种提取互联网上内容信息的方法及系统
本专利技术涉及通信
,特别是涉及一种提取互联网上内容信息的方法及系统。
技术介绍
互联网发展到如今,其包含的资讯内容已经达到了海量的地步,但是这些咨询内容分散在互联网中的成千上万个站点上,给人们的浏览带来了极大的不便。在这样的情况下,互联网内容提取技术越来越受到重视,它能够主动提取资讯内容,为内容聚合、内容挖掘、内容发布等业务提供原始数据。互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字,查找与关键字存在某种关系的网页,并将这些符合要求的网页地址罗列显示给用户。互联网资讯内容的提取是通过用户输入的策略要求,对指定站点进行分析,找到符合要求的资讯内容,并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息,然后通过一定的接口将这些提取的信息交付给其它应用程序,比如发布系统等。目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术,简称为“RSS”,是一种内容发布和展现格式,只包含数据,采用XML组织而成。在RSS方式下,资讯内容网站首先必须发布自己的RSS,即提供一个XML页面,该页面展示一定数量的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等。随后,用户通过一定的方式找到自己感兴趣的RSS,进行订阅。以后每隔一段时间刷新这个RSS,得到所订阅的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等,通过点击浏览正文地址链接,用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。为了使用户方便订阅RSS,目前还出现了很多RSS阅读工具,包括桌面工具和Web工具,它们可以保存用户订阅的RSS,根据用户设置的时间间隔,定期的获取最新资讯内容,提醒用户浏览。但是,上述现有技术存在以下的技术问题:1)并非所有的资讯内容站点都提供RSS。采用上述现有技术的先决条件是,资讯内容站点必须首先发布RSS,用户才有可能进行订阅。但是对于互联网海量的资讯而言,发布RSS的站点只占很少一部分,而大部分的资讯站点仍然采用传统的网页浏览方式。2)RSS内容依赖于资讯内容站点提供方。目前,许多资讯内容站点提供的RSS并没有覆盖该站点内所有的资讯,而只是提供了一小部分内容,对于RSS没有提供的内容,通过现有技术的方式就无法获得,这就限制了用户提取信息的主动性。3)通过RSS无法获取并保存正文内容。目前的RSS只提供正文地址链接,而不提供正文的内容,用户必须访问正文地址链接所指向的网址,才能浏览正文,因此降低了用户的浏览速度。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种提取互联网上内容信息的方法,包括如下步骤:响应于待提取内容的输入指令;识别所述输入指令,并根据识别结果选择分类类别;使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。进一步地,所述关联系数按照以下公式计算:C=R*(M+N)NC为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。进一步地,生成与所述分类类别相关联的内容集,包括如下步骤:获取URL的网页的分类类别;提取与所述网页相关的文本;将所述有文本汇聚为与所述分类类别相关联的内容集。进一步地,在所述显示器上进行展示的步骤包括:按照所述关联系数由高到低的顺序将所述内容集进行展示。进一步地,所述输入指令包括用于获得搜索结果的搜索查询。特别地,本专利技术还提供了一种提取互联网上内容信息的系统,包括:响应模块,用于响应于待提取内容的输入指令;识别模块,用于识别所述输入指令,并根据识别结果选择分类类别;分析模块,用于使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;展示模块,用于将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。进一步地,所述关联系数按照以下公式计算:C=R*(M+N)NC为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。进一步地,所述分析模块包括:获取单元,用于获取URL的网页的分类类别;提取单元,用于提取与所述网页相关的文本;汇聚单元,用于将所述有文本汇聚为与所述分类类别相关联的内容集。进一步地,所述展示模块包括:展示单元,用于按照所述关联系数由高到低的顺序将所述内容集进行展示。进一步地,所述输入指令包括用于获得搜索结果的搜索查询。本专利技术的方案,为用户提供设置接口,可以直接获取目标网页中的内容信息。并且不必被动依赖于资讯网站是否发布RSS和所发布的RSS内容,可以从更广阔的资讯来源中提取更丰富细致的资讯内容。此外,还可以将内容信息保存在本地以供用户访问,从而提高用户的浏览速度。根据下文结合附图对本专利技术具体实施例的详细描述,本领域技术人员将会更加明了本专利技术的上述以及其他目的、优点和特征。附图说明后文将参照附图以示例性而非限制性的方式详细描述本专利技术的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:图1是根据本专利技术一个实施例的一种提取互联网上内容信息的方法的流程图;图2是根据本专利技术另一个方面的提取互联网上内容信息的系统的示意图。具体实施方式图1示出了根据本专利技术一个实施例的一种提取互联网上内容信息的方法的流程图。如图1所示,所述方法包括如下步骤:S100、响应于待提取内容的输入指令;S200、识别所述输入指令,并根据识别结果选择分类类别;S300、使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;S400、将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。其中,所述关联系数按照以下公式计算:C=R*(M+N)NC为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。其中,生成与所述分类类别相关联的内容集,包括如下步骤:获取URL的网页的分类类别;提取与所述网页相关的文本;将所述有文本汇聚为与所述分类类别相关联的内容集。其中,在所述显示器上进行展示的步骤包括:按照所述关联系数由高到低的顺序将所述内容集进行展示。其中,所述输入指令包括用于获得搜索结果的搜索查询。特别地,图2示出了根据本专利技术另一个方面的提取互联网上内容信息的系统的示意图。如图2所示,本专利技术还提供的一种提取互联网上内容信息的系统,包括:响应模块10,用于响应于待提取内容的输入指令;识别模块20,用于识别所述输入指令,并根据识别结果选择分类类别;分析模块30,用于使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;展示模块40,用于将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。其中,所述关联系数按照以下公式计算:C=R*(M+N)NC为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。其中,所述分析模块30包括:获取单元31,用于获取URL的网页的分类类别;提取单元32,用于提取与本文档来自技高网
...
一种提取互联网上内容信息的方法及系统

【技术保护点】
1.一种提取互联网上内容信息的方法,其特征在于,包括如下步骤:

【技术特征摘要】
1.一种提取互联网上内容信息的方法,其特征在于,包括如下步骤:响应于待提取内容的输入指令;识别所述输入指令,并根据识别结果选择分类类别;使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。2.根据权利要求1所述的提取互联网上内容信息的方法,其特征在于,所述关联系数按照以下公式计算:C=R*(M+N)NC为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。3.根据权利要求2所述的提取互联网上内容信息的方法,其特征在于,生成与所述分类类别相关联的内容集,包括如下步骤:获取URL的网页的分类类别;提取与所述网页相关的文本;将所述有文本汇聚为与所述分类类别相关联的内容集。4.根据权利要求2所述的提取互联网上内容信息的方法,其特征在于,在所述显示器上进行展示的步骤包括:按照所述关联系数由高到低的顺序将所述内容集进行展示。5.根据权利要求1-4中任一项所述的提取互联网上内容信息的方法,其特征在于,所述输入指令包括用于获得搜索结果的搜索查询。6.一种提取互联网上内容信息的...

【专利技术属性】
技术研发人员:王森
申请(专利权)人:佛山市道静科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1