当前位置: 首页 > 专利查询>微软公司专利>正文

智能自动填充制造技术

技术编号:2858001 阅读:289 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种独特的系统和方法,能够采用机器学习技术跨各种不同的Web表格自动填充一个或多个字段。特别地,一个或多个工具化工具可收集表格字段的输入或输入项。机器学习可用于学习什么数据对应于哪些字段或哪些类型的字段。输入可被发送回中央储存库,在中央储存库中,其它数据库也可聚集在一起。该输入可提供给机器学习系统,以学习如何预测所希望的输出。可选地或除此之外,可部分地通过观察输入项,然后相应地对自动填充组件进行适配来进行学习。此外,可采用数据库字段的若干特征以及约束来促进数据库输入项到表格值的赋值-特别是在Web表格从未被自动填充系统看到过时。

【技术实现步骤摘要】

本专利技术一般涉及学习用户信息,特别涉及将基于用户的输入映射到基于web的表格的一个或多个字段,以便于用户信息地自动输入。
技术介绍
因特网上的通信和交易业务对于工作职业人员(working professional)以及购买人群(buying public)来说已变得每天都要经历到。例如在购买产品时、请求信息时、或提交问题时,因特网用户通常被要求填写许多表格(其中的一些表格可能或可能不相类似)。用户必须在各种不同的表格上重复地输入相同的信息,包括它们的姓名、家庭住址、工作地址、电子邮件地址、和/或电话号码。不幸的是,试图解决这些问题的传统方法是有问题的。例如,在某些技术中,仅当表格与先前的表格相同时,先前的输入项才能被记忆出。考虑到因特网上范围巨大的网站和大量的网站所有者和操作者,这可能不是一种在因特网上用于降低对用户时间的浪费和提高用户效率的合理方法。其它传统的方法可提供某些数据的自动输入,然而,这些方法仍然是不完善的,因此,不能满足当今的因特网用户的众多需求。
技术实现思路
下面给出了本专利技术的简要概述,以便提供对本专利技术的某些方面的基本理解。该概述并非本专利技术的大范围的概述。并不意图标识本专利技术的关键/决定性的元件,或描绘本专利技术的范围。其唯一目的是以简单的形式给出本专利技术的某些概念,作为后述的更为详细的描述的前序。本专利技术涉及一种改进的数据输入技术,由浏览器使用于各种不同的web表格中,使得用户的努力最小化。更为具体地来说,本专利技术提供了一种能够采用机器学习技术跨各种不同的web表格自动填充一个或多个字段的系统和/或方法。通过使用机器学习技术,浏览器或其它工具化工具能够学习哪些数据或哪些类型的数据与哪些字段或哪些类型的字段相关。也可学习其它类型的相关,例如,特定输入输入到某一特定web页面上的某些特定字段中。例如,与明确的编程相比,本专利技术的机器学习技术能够提高数据自动填充能力。根据一个方法,该系统和方法能够利用关于用户的信息的一个或多个数据库,学习哪些字段映射到哪些数据库输入项(或项目)。特别地,可部分地通过经工具化工具护工具栏来观察和收集用户输入来生成字段信息的数据库。也可学习确定什么表格字段(基于web的表格上的字段)应用哪些数据库字段(来自数据库的字段)填充。例如,可学习在标记为FIRST的表格字段中,用户可能从他们的数据库输入“first name”(名)信息。当用户来到一新的web表格时,例如浏览器需要确定该表格是否包含浏览器能够填充的输入项,如果包含,则确定哪些输入项对应于数据库的哪些部分。此外,如果存在多个数据库输入项,则应该进行确定哪个数据库输入项用于给定的表格。获得训练数据来进行上述确定中的任一个是至关紧要的任务。幸运的是,训练无需是用户特定的。在本专利技术的一个方面中,可以某种方式收集包含输入和输出特征的训练数据。例如,工具栏可为某些用户收集和聚集他把哪些数据库输入项输入到哪些字段,以及那些字段的特征是什么。该信息然后可被送回中央储存库。中央储存库中的数据可用作训练算法的输入,来学习哪些数据库字段对应于哪些表格字段。例如,可学习到标记为“firstname”的数据库字段对应于标记为“FIRST”的表格字段。如果用户在标记为FIRST的表格字段中输入“Joshua”,并且该用户具有标记为“firstname”的数据库字段,则信息FIRST和“firstname”可被送回。从而,不需要将个人可识别信息包含在内来执行本专利技术的该方面。如上所述,数据库字段以及从中得出的各种特征可用于训练目的。例如,可利用表格字段的特性作为特征来区分不同类型的数据和不同类型的表格字段。特别地,每个表格字段具有诸如文本之类的输入类型,文本可指示出文本框。表格字段是文本类型的字段的事实可能是有用的信息,因为它可促进导出什么数据包含于该字段中。也就是说,如果存在除了文本字段之外的其它字段,例如组合框,则它将不包含姓名或地址。特征可基于表格字段名、表格字段的字符大小或宽度、表格字段周围的文本、和/或表格字段相对于可能或可能不已知或识别出的其它表格字段的位置。检查HTML表也能促进确定什么单词或数据位于某一表格字段的上面、下面、左面或右面。此外,使用附近的文本或可能或可能不与该附近文本等同的附近文本的子串,可提供额外的信息。在本专利技术的另一方面中,至少部分地根据一个或多个约束,可将数据库字段赋值到表格字段或值。约束可控制在许多情况下数据库字段/输入项到表格值的赋值。例如,当web表格明显具有相冲突的输出类型或者明显验证出数据库输入项能或不能在单个web表格内被重用时,可采用约束。在某些情况下,诸如当面对新的web表格时,可能希望数据库输入项到表格字段的最佳赋值。可部分地根据一个或多个约束的最大化联合概率来确定该最佳赋值。约束类型的例子可包括在没有另一表格字段(例如地址行#1)时不允许某一表格字段(例如地址行#2)、减少重复使用输入项的重复使用约束、处理相冲突的输出类型的合成约束、和/或顺序约束(例如区码位于交换局的前面)。在本专利技术的又一个方面中,可将从数据库字段到表格值的映射个人化。例如,可观察到在某一web页面上,用户拒绝了所建议的自动输入项,并手工地输入数据。此数据的某些可能匹配数据库中的输入项。此后,对于该特定用户,可学习到某些表格字段输入项对应于所观察到的数据库输入项,这与经学习的数据库输入项相反。因此,用户可以用某些其它数据来覆盖自动输入项,系统或方法可学习该其它数据。可选地或除此之外,用户的手工输入(对于该用户)可以是站点特定的——意味着这种输入仅用于该特定web页面或web站点。而且,可根据观察响应于自动填充操作的用户输入来修改自动输入项。在本专利技术的又一方面中,在存在多组字段时,例如家庭地址和公司地址、或账单地址和运输地址,可采用直观推断或学习。例如,在HTML表格中,这些地址通常出现在不同的表中。从而,可学习它们各自的位置或表,可以将它们分离成任何数量的子组。另一个方法可不使用数据库,而是涉及观察和/或跟踪用户的数据输入,以学习什么数据输入到哪些字段。特别地,可观察和存储用户对多个表格字段的数据输入,用于离线学习,或者可通过在线学习来跟踪和更新。在离线学习中,可存储对包括某些敏感信息的字段输入项的多个被观察到的实例,然后稍候用作机器学习系统的输入。在线系统采用在线学习算法,例如 Bayes方法、梯度下降、簸选或感知器算法等等中之一,除了例如可包含某些个人可识别的信息的模型本身之外,不需要存储任何信息。上面所讨论的本专利技术的许多方面还可与该观察输入方法相组合。在某些情况下,并非所有的表格字段对于用于都是可见的;尽管如此,它们也可被填充。这仅仅对于用户可能没有意识到他所公开的信息这一事实造成许多安全性或私密性关注。响应于这种关注,本专利技术的另一方面提供用户界面上的显示,能够允许用户看到页面上的和/或自动填充的表格字段的列表。这对于自动填充的单选按钮或复选框来说尤其有效,因为它们对于用户来说可能不显著,或者用户可能没有预期到它们被自动填充。表格字段的列表也可链接到web页面上的实际表格字段。因此,对所列的表格字段的修改可能影响到实际的表格字段中的内容。可选地,自动填充特征的使用可能在用户计算机上的适当位置束缚于安全措本文档来自技高网...

【技术保护点】
一种自动填充系统,其特征在于,包括:经训练的机器学习组件,使用一组或多组输入以便于基于web的表格的自动填充;以及自动填充组件,至少部分地根据所述机器学习组件生成的信息,选择性地将适当的数据输入到一个或多个表格字段中。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:CM卡迪DA格拉斯哥DM奇克林DE布拉德福德JT古德曼
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1