来自所提取的内容的内容创建制造技术

技术编号:14754178 阅读:45 留言:0更新日期:2017-03-02 12:02
各示例描述了对于来自所提取的内容的至少一个概要的内容创建。接收到输入信息,该输入信息包括到登陆页的链接和关键词信息(302)。评估登陆页并且从登陆页中提取包括图像数据和文本数据中的至少一者的内容(304)。分析所提取的内容的特性(306)。所提取的内容基于所分析的特性以及至少两个排序算法的应用来被排序(308)。所应用的第一排序算法基于与登陆页的相关性来排序该内容,而所应用的第二排序算法基于与关键词信息的相关性来排序该内容。基于将过滤规则应用到经排序的内容来过滤经排序的内容以移除被确定为不具有吸引力的内容或内容部分(310)。从经过滤的且经排序的内容中创建至少一个概要(312)。

【技术实现步骤摘要】
【国外来华专利技术】背景所创建的内容的质量对于吸引用户和引起用户的注意而言是重要的。所提供的服务可以通过代表客户创建和管理内容来协助这样的客户。在这么做时,服务提供者力求创建高质量的内容以供多样化放置并且还希望针对所创建的内容的管理的高效且可扩展的方案。本申请针对这一一般技术环境。概述本专利技术的各示例描述了来自所提取的内容的至少一个概要的内容创建。接收到输入信息,该输入信息包括到登陆页的链接和关键词信息。评估登陆页并且从登陆页中提取包括图像数据和文本数据中的至少一者的内容。分析所提取的内容的特性。基于所分析的特性以及至少两个排序算法的应用来排序所提取的内容。所应用的第一排序算法基于与登陆页的相关性来排序该内容,而所应用的第二排序算法基于与关键词信息的相关性来排序该内容。基于将过滤规则应用到经排序的内容来过滤经排序的内容以移除被确定为不具有吸引力的内容或内容部分。从经过滤的且经排序的内容中创建至少一个概要。还描述了其他示例。提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的一些概念。本
技术实现思路
并不旨在标识所要求保护主题的关键特征或必要特征,也不旨在用于限制所要求保护主题的范围。各示例的附加方面、特征、和/或优点将在以下描述中阐述,并且根据该描述而部分地显而易见,或者可通过实施本专利技术而获知。附图简述参考以下附图描述非限制性和非穷尽的示例。图1示出用于内容创建以及对所创建的内容的管理的示例系统的概览。图2示出示例性内容创建流水线的概览。图3示出用于内容创建和所创建的内容的管理的示例方法。图4示出用于内容创建和所创建的内容的管理的示例方法。图5是解说可用来实现本公开的各方面的计算设备的示例的框图。图6A和6B是可用来实施本公开的各方面的移动计算设备的简化框图。图7是可在其中实施本公开的各方面的分布式计算系统的简化框图。详细描述各非限制示例描述通过充分利用机器学习技术和对内容的上下文理解的用于多样化放置的自动化内容创建。在一些情况下,客户端(例如,广告商、企业、公司、小型或中型商户)提供用于内容创建或修改的元数据。在其他情况下,服务提供者代表客户端自动地注释用于内容创建或修改的内容。本专利技术描述了其中高度相关的内容从客户端的网站中被自动地提取的示例。所提取的内容被分析上下文、被排序和被过滤以代表客户端创建用于放置的内容。在一些示例中,所创建的内容被添加并维护在用于创建内容的存储中。还可管理所创建的内容的放置,包括更新所创建的内容的放置。在许多情况下,用于内容创建的内容的提取不被自动地完成。对代码(诸如(HTML代码))执行基本编程语言分析而非分析实际内容的相关性来标识内容。本专利技术的各示例使得能够实现从客户端网站的至少一个登陆页中自动提取高度相关的内容。登陆页是通过在另一网页上点击超链接(例如,统一资源标识符(URI)或统一资源定位符(URL))来访问的网站的一部分。本专利技术充分利用机器学习智能来从网站的登陆页中标识代表性内容,诸如图像/视频、文本、丰富说明文字以及其他关键的元数据。机器学习智能(例如,机器学习算法)与上下文分析相组合来实现对登陆页的主块的自动检测、从主块中对相关内容的自动提取以及对用于放置的高质量的内容的高效创建。基于本专利技术实现了数个技术益处,包括但不限于:增加的处理能力、在内容标识、提取和创建处理方面提升的效率和准确性、在对与相关内容概要的生成高度相关的内容的提取和标识方面提升的质量、用于所创建的内容的管理和放置的改进的交互以及与用户的改进的交互(用所创建的内容向用户呈现)。图1示出用于内容创建以及对所创建的内容的管理的示例系统100的概览。所呈现的示例性系统100是相互作用来形成用于处理和管理内容的整合整体的相互依赖的各组件的组合。系统的组件可以是硬件组件或被实现在系统的硬件组件上的软件。在各示例中,示例性系统100可包括硬件组件(操作系统(OS))、在硬件组件上运行的软件组件(例如,应用、应用编程接口、虚拟机)中的任意。在一个示例中,系统100提供用于软件组件运行的环境、遵守用于操作的约束集、以及利用系统100的资源或工具,其中系统100的各组件可以是运行在一个或多个处理设备上的软件(例如,应用、程序、模块等)。例如,内容创建应用或服务可被运行在处理设备上,该处理设备诸如计算机、服务器、移动电话、平板、游戏控制台、电子设备等,其中系统的各组件可被执行在该处理设备上。在其它示例中,示例系统的各组件可散布在多个设备上。例如,输入可被输入在客户端设备(例如,移动电话)上,而信息可由网络中的其它设备(诸如一个或多个服务器设备和/或数据存储)处理或访问。系统100还包括各组件,诸如数据储存/存储器/存储,例如图1中显示的并在以下被描述的知识存储108。每个组件可包括一个或多个系统组件。请参考图5-7来获得可作为示例性系统的一部分被包括的硬件的附件示例。作为一个示例,系统100包括各组件,诸如内容创建组件102、内容管理组件104、内容放置组件104以及知识存储108,每个都具有一个或多个附加组件。系统100的规模可变化并可包括比图1中描述的组件更多或更少的组件。系统100的各组件之间的对接可通过网络来进行,该网络连接系统的各组件和/或系统1001外部的资源。在一个示例中,系统100的各组件本地地存在于设备(诸如移动设备或服务器设备)上。在至少一个其他示例中,系统100的各组件可通过分布式环境(诸如云计算环境)来连接。示例性系统100包括内容创建组件102,该内容创建组件102被用于接收用于内容创建的输入并创建内容以供放置。内容创建组件102接收并管理用于内容创建的输入。输入可从客户端接收,该客户端为诸如希望使得内容(诸如广告)被创建以供放置的商家/广告商。输入可按任意形式被接收,诸如请求形式、电子邮件、电话联系、电子会议等等。被包括在接收到的输入中的信息包括但不限于:内容创建的超链接(例如,登陆页的URL、目标URL、visual(可视)URL)关键词(例如,广告的关键词)、标题、概要/描述、关于放置的信息、用于创建的内容的类型以及要从所创建的内容中排除的信息的标识等等。内容创建组件102还可包括使得在客户端和服务提供者之间能够进行交互的用户界面(UI)。例如,内容创建请求能够被生成并被发送到客户端,并且输入信息能够被接收以用于内容创建处理。内容创建组件102使用接收到的输入来评估在接收到的输入中标识的登陆页或目标URL。作为一个示例,可基于在接收到的输入中所提供的登陆页的URL来评估登陆页的索引。内容创建组件102被配置成从接收到的输入中标识登陆页的URL,并使用机器学习算法来自动地评估网页。所应用的机器学习算法收集、解析并存储数据以促进快速且准确的信息检索。作为一个示例,采用能够爬行网页或网页的索引、标识内容以供提取以及提取内容的机器学习算法。在评估登陆页时,内容创建组件102可采用多个机器学习算法以用于内容提取。在一些示例中,对内容的提取是基于信号的。在一个示例中,内容创建组件102从所提取的内容中创建一个或多个概要。概要是所提取的内容以新的方式被对准、修改或重新安排的变换。在各示例中,所创建的概要是一种类型以上的所提取的内容的组合(例如,图像或视频数据和文本数据)。即,概要包括本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/201580015033.html" title="来自所提取的内容的内容创建原文来自X技术">来自所提取的内容的内容创建</a>

【技术保护点】
一种计算机实现的方法(300),包括:接收(302)用于内容创建的输入信息,其中所述输入信息包括到登陆页的链接和关键词信息;评估(304)所述登陆页并且从所述登陆页中提取包括图像数据和文本数据中的至少一者的内容;分析(306)所提取的内容的特性;基于所述内容的所分析的特性以及至少两个排序算法的应用来排序(308)所提取的内容,其中所应用的第一排序算法基于与所述登陆页的相关性来排序所述所提取的内容,而所应用的第二排序算法基于与所述关键词信息的相关性来排序所提取的内容;基于将过滤规则应用到经排序的内容来过滤(310)经排序的内容以移除被确定为不具有吸引力的内容或内容部分;以及从经过滤的且经排序的内容中创建(312)至少一个概要。

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法(300),包括:接收(302)用于内容创建的输入信息,其中所述输入信息包括到登陆页的链接和关键词信息;评估(304)所述登陆页并且从所述登陆页中提取包括图像数据和文本数据中的至少一者的内容;分析(306)所提取的内容的特性;基于所述内容的所分析的特性以及至少两个排序算法的应用来排序(308)所提取的内容,其中所应用的第一排序算法基于与所述登陆页的相关性来排序所述所提取的内容,而所应用的第二排序算法基于与所述关键词信息的相关性来排序所提取的内容;基于将过滤规则应用到经排序的内容来过滤(310)经排序的内容以移除被确定为不具有吸引力的内容或内容部分;以及从经过滤的且经排序的内容中创建(312)至少一个概要。2.如权利要求1所述的计算机实现的方法(300),其特征在于,进一步包括:将至少一个所创建的概要添加(314)到所创建的概要的存储,并且基于对所述概要的放置的位置的评估来从所创建的概要的存储中选择(316)所述至少一个概要以供放置。3.如权利要求1所述的计算机实现的方法(300),其特征在于,所述内容的提取(304)包括爬行所述登陆页并且从所述登陆页中自动提取包括所述图像数据和所述文本数据的主数据块,并且基于要在所述创建中被创建的概要的类型来从所述主数据块中自动提取信息。4.如权利要求1所述的计算机实现的方法(300),其特征在于,其中所述创建(312)从经过滤的且经排序的内容中创建多个概要,并且所述计算机实现的方法还包括基于所获得的针对所述多个概要中的一个或多个概要的用户响应数据来更新(320)所述多个概要中的一个或多个概要的放置。5.如权利要求4所述的计算机实现的方法(300),其特征在于,其中所述更新(320)还包括基于人口统计信息来修改所述概要的内容。6.如权利要求1所述的计算机实现的方法(300),其特征在于,其中在所述创建(312)中创建的概要是通过聚集和安排所提取的包括图像数据、文本数据和元数据中的至少两者的不同类型的内容来创建的丰富格式内容。7.如权利要求1所述的计算机实现的方法(300),其特征在于,其中所述创建(312)还包括修改来自经过滤的且经排序的内容中的内容以创建所述概要。8.如权利要求1所述的计算机实现的方法(300),其特征在于,还包括迁徙(318)所述至少一个概要以确定对所述概要的用户响应,其中所述迁徙包括收集和评估针对所述至少一个概要的用户响应数据。9.如权利要求1所述的计算机实现的方法(300),其特征在于,所述过滤(310)还包括基于所述过滤规则的应用来更新经排序的内容的排序,所述过滤规则评估对于内容与所述登陆页有多占优的相关性、与所述关键词信息的相关性以及从用户响应数据中确定的相关性中的至少一个。10.一种系统(100),包括:存储器(506);以及与所述存储器连接的至少一个处理器(660),所述至少一个处理器执行过程,所述过程包括:接收(302)用于内容创建的输入信息,其中所述输入信息包括到登陆页的链接和关键词信息,评估(304)所述登陆页并且从所述登陆页中提取包括图像数据和文本数据中的至少一者的内容,分析(306)所提取的内容的特性,基于所述内容的所分析的特性以及至少两个排序算法的应用来排序(308)所提取的内容,其中所应用的第一排序算法基于与所述登陆页的相关性来排序所提取的内容,而所应用的第二排序算法基于与所述关键词信息的相关性来排序所提取的内容,基于将过滤规则应用到经排序的内容来过滤(310)经排序的内容以移除被确定为不具有吸引力的内容或内容...

【专利技术属性】
技术研发人员:Y·林M·约丹G·杨
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1