The present invention provides a method for extracting content information on the Internet, including the following steps: input instructions responding to the content to be extracted, identifying the input instructions, selecting classification categories according to the recognition results, and analyzing the input instructions using the classified category to generate the internal correlation with the classified category. The content set includes the content to be extracted; the content set is sorted in accordance with the correlation coefficient associated with the input instruction, and is displayed on the display. The scheme provides the user with the setting interface, which can directly obtain the content information in the target web page, and does not have to rely on whether the information web site releases the RSS and the published RSS content, and can extract more detailed information from the wider information source. In addition, it can also save the content information. In order to improve the browsing speed of users, users are visited locally. One
【技术实现步骤摘要】
一种提取互联网上内容信息的方法及系统
本专利技术涉及通信
,特别是涉及一种提取互联网上内容信息的方法及系统。
技术介绍
互联网发展到如今,其包含的资讯内容已经达到了海量的地步,但是这些咨询内容分散在互联网中的成千上万个站点上,给人们的浏览带来了极大的不便。在这样的情况下,互联网内容提取技术越来越受到重视,它能够主动提取资讯内容,为内容聚合、内容挖掘、内容发布等业务提供原始数据。互联网资讯内容的提取和搜索引擎是不同的概念。搜索引擎是通过用户输入的关键字,查找与关键字存在某种关系的网页,并将这些符合要求的网页地址罗列显示给用户。互联网资讯内容的提取是通过用户输入的策略要求,对指定站点进行分析,找到符合要求的资讯内容,并且分别提取资讯内容的标题、作者、来源、发布时间、正文、图片等信息,然后通过一定的接口将这些提取的信息交付给其它应用程序,比如发布系统等。目前存在一种基于可扩展标记语言(XML)的资讯内容提取技术,简称为“RSS”,是一种内容发布和展现格式,只包含数据,采用XML组织而成。在RSS方式下,资讯内容网站首先必须发布自己的RSS,即提供一个XML页面,该页面展示一定数量的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等。随后,用户通过一定的方式找到自己感兴趣的RSS,进行订阅。以后每隔一段时间刷新这个RSS,得到所订阅的最新资讯内容,包括标题、作者、发布时间、摘要、正文地址链接等,通过点击浏览正文地址链接,用户可以跳转到发布该RSS的咨询内容站点上浏览内容原文。为了使用户方便订阅RSS,目前还出现了很多RSS阅读工具,包括桌面工具和W ...
【技术保护点】
1.一种提取互联网上内容信息的方法,其特征在于,包括如下步骤:
【技术特征摘要】
1.一种提取互联网上内容信息的方法,其特征在于,包括如下步骤:响应于待提取内容的输入指令;识别所述输入指令,并根据识别结果选择分类类别;使用所述分类类别分析所述输入指令,从而生成与所述分类类别相关联的内容集,所述内容集包含所述待提取内容;将所述内容集按照与输入指令相关联的关联系数进行排序,并在显示器上进行展示。2.根据权利要求1所述的提取互联网上内容信息的方法,其特征在于,所述关联系数按照以下公式计算:C=R*(M+N)NC为关联系数,R为类别相关度,M为输入指令中的关键词匹配度,N为内容集中关键词所占比例。3.根据权利要求2所述的提取互联网上内容信息的方法,其特征在于,生成与所述分类类别相关联的内容集,包括如下步骤:获取URL的网页的分类类别;提取与所述网页相关的文本;将所述有文本汇聚为与所述分类类别相关联的内容集。4.根据权利要求2所述的提取互联网上内容信息的方法,其特征在于,在所述显示器上进行展示的步骤包括:按照所述关联系数由高到低的顺序将所述内容集进行展示。5.根据权利要求1-4中任一项所述的提取互联网上内容信息的方法,其特征在于,所述输入指令包括用于获得搜索结果的搜索查询。6.一种提取互联网上内容信息的...
【专利技术属性】
技术研发人员:王森,
申请(专利权)人:佛山市道静科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。