话题知晓的字建议制造技术

技术编号:16388507 阅读:27 留言:0更新日期:2017-10-16 08:58
在本文中描述了用于提供话题知晓的字建议的概念和技术。通过使用文本输入,所述系统确定有条件的计数和无条件的计数。所述系统然后基于所述无条件的计数和所述有条件的计数确定针对所述多个字中的字对的调整因子。所述系统然后生成定义多个字聚类的数据结构。所述系统然后基于所述字对的单个字之间的公共聚类的数量,重构针对所述字对的所述调整因子。将所述调整因子与诸如来自语言模型字典的数据和来自平均聚类激活状态表的新鲜度因子这样的其它数据组合在一起,以便确定与字候选项相关联的概率,向用户显示所述字候选项。

【技术实现步骤摘要】
【国外来华专利技术】话题知晓的字建议对相关申请的交叉引用本申请要求于2015年2月27日提交的名称为“TOPICALLYAWAREWORDSUGGESTIONS”的美国临时专利申请序号No.62/126,307的权利,并且要求于2016年2月10日提交的名称为“TOPICALLYAWAREWORDSUGGESTIONS”的美国专利申请序号No.15/040,947的权利,以引用方式将这两项申请整体上明确地并入本文。
技术介绍
在用户在诸如电话这样的计算设备上键入文本时,某些技术提供关于他们可能正在尝试键入的字或者可能在句子中接下来出现的字的建议。为生成字建议,存在被设计为标识相关的字的一些技术。例如,某些模型对数据集中的字的公共序列进行分析,并且在序列的特定的字被键入到设备中时,向用户建议通常跟随在该特定的字之后的字。在一个示例中,如果用户键入字“心脏”,则使用该基于序列的技术的多数系统将建议字“病”,因为样本集合可能指示字的该序列。其它技术可以使用用户个性化数据来生成字建议。例如,设备可以存储来自用户的输入的文本数据。设备然后可以对被特定的用户频繁地使用的字或者字的序列进行分析,以便向用户建议字。尽管现有的技术提供字建议,但存在改进的空间。例如,现有的技术是不知晓用户的输入的上下文和/或与该输入相关的其它文本的。对字序列的分析简单地不能够解释用于提供上下文上相关的建议的更宽泛的意义。关于这些和其它的考虑呈现了本文中给出的公开内容。
技术实现思路
在本文中描述了用于提供话题知晓的字建议的概念和技术。在一个方面中,一种系统被配置为,接收包含多个字的输入。通过使用所述输入,所述系统确定有条件的计数和无条件的计数。所述系统然后基于所述无条件的计数和所述有条件的计数确定针对所述多个字中的字对的调整因子。所述系统然后生成定义多个字聚类的数据结构,其中,所述多个字聚类中的所述单个字聚类包括所述多个字中的至少一个字。所述系统然后基于字的对的单个字之间的公共聚类的数量重构针对字的对的所述调整因子。将所述调整因子与诸如来自语言模型字典的数据和来自平均聚类激活状态表的新鲜度因子这样的其它数据组合在一起,以便确定与字候选项相关联的概率。基于所述概率向用户显示一个或多个字候选项。本文中描述的技术使用来自一些源的数据来向文本输入提供对上下文知晓的自动包括,这允许实现动态地标识话题,并且基于所述话题提供字建议。根据各种实施例,数据结构可以存储专用于应用和人员的使用数据。使用来自全部两者数据结构的所述数据来找到话题上相关的字的分组。基于一个或多个已计算的概率,从话题上相关的字的所述分组中选择字候选项。应当认识到,上面描述的主题还可以被实现为受计算机控制的装置、计算机进程、计算系统或者诸如计算机可读介质这样的制品。通过阅读下面的详细说明和回顾关联的图,这些和各种其它的特征将是显而易见的。提供本概要以便以简化形式介绍下面在详细说明中进一步描述的概念的选择。本概要不旨在标识所要求保护的主题的关键特征或者必要特征,也不旨在本摘要被用于限制所要求保护的主题的范围。此外,所要求保护的主题不限于解决在本公开内容的任何部分中指出的任何或者全部缺点的实现方式。附图说明图1是示出用于提供话题知晓的字建议的若干示例部件的方框图;图2是图示了用于对被用于提供话题知晓的字建议的数据进行处理的一个图示性的例程的方面的流程图;图3A和3B描述了可以在使用存储和使用相关表的设备期间被使用的例程;图4是示出字与字聚类之间的相关度的结构的示例;图5是图示了用于对聚类数据进行处理的示例例程的方面的流程图;图6是图示了能够实现本文中呈现的技术和工艺的方面的计算系统的图示性的计算机硬件和软件架构的计算机架构图。图7是图示了能够实现本文中呈现的技术和工艺的方面的分布式计算环境的图。图8是图示了能够实现本文中呈现的技术和工艺的方面的计算设备的计算设备架构的计算机架构图。具体实施方式本文中描述的技术提供话题知晓的字建议。在一个方面中,一种系统被配置为,接收包含多个字的输入。通过使用该输入,系统确定有条件的计数和无条件的计数。系统然后基于无条件的计数和有条件的计数确定针对多个字中的字对的调整因子。系统然后生成定义多个字聚类的数据结构,其中,多个字聚类中的单个字聚类包括多个字中的至少一个字。系统然后基于字对的单个字之间的公共聚类的数量重构针对字对的调整因子。将调整因子与诸如来自语言模型字典的数据和来自平均聚类激活状态表的新鲜度因子这样的其它数据组合在一起,以便确定与字候选项相关联的概率。基于概率向用户显示一个或多个字候选项。本文中描述的技术使用来自一些源的数据来向文本输入提供对上下文知晓的自动包括,这允许实现动态地标识话题,并且基于话题提供字建议。根据各种实施例,数据结构可以存储专用于应用和人员的使用数据。使用来自全部两者数据结构的数据来找到话题上相关的字的分组。基于一个或多个已计算的概率,从话题上相关的字的分组中选择字候选项。尽管在结合计算机系统上的操作系统和应用程序的执行而执行的程序模块的一般上下文中呈现了本文中描述的主题,但本领域的技术人员将认识到,可以结合其它类型的程序模块执行其它实现方式。概括地,程序模块包括例程、程序、组件、数据结构和执行特定的任务或者实现特定的抽象数据类型的其它类型的结构。此外,本领域的技术人员将认识到,本文中描述的主题可以利用其它计算机系统配置来实践,这样的计算机系统配置包括手持型设备、多处理器系统、基于微处理器的或者可编程的消费电子产品、微型计算机、大型计算机等。在下面的详细说明中,参考了附图,附图形成其一部分,并且通过图示特定的实施例或者示例被示出。现在参考附图,其中,相似的数字贯穿若干附图表示相似的元素,将描述用于提供话题知晓的字建议的计算系统和方法的方面。图1是示出用于提供话题知晓的字建议的本文中公开的一种说明性的机制的方面的系统图。如图1中所示,系统100可以包括远程计算机101、计算设备110和网络120。计算设备110可以运行为独立的设备,或者计算设备110可以结合远程计算机101运行。如可以认识到的,通过诸如网络120这样的一个或多个局域和/或广域网使远程计算机101和计算设备110互连。应当认识到,可以使用比图1中所图示的网络连接多得多的网络连接。计算设备110可以包括本地存储器180,本地存储器180存储输入数据103、语言模型字典113、输出115和本文中描述的其它数据。计算设备110还可以包括被配置为管理用户与计算设备110之间的交互的程序模块111。程序模块111可以采用游戏应用、办公生产应用、操作系统组件或者具有经由语声或者文本通信与用户交互的特征的任何其它应用的形式。计算设备110还可以包括被配置为结合麦克风116和扬声器117运行的语声模块113。语声模块113可以包括用于将用户语声转换到诸如文本或者二进制格式这样的计算机可读格式的机制。如可以认识到的,语声模块113可以包括用于将用户的语音转换到计算机可读格式的一些已知技术。也可以通过输入设备119从用户接收文本,输入设备119可以包括用于接收文本的任何设备。这可以包括显示界面上的软键盘、硬件键盘或者任何其它设备。语声模块113还可以结合远程计算机101上的预测服务107运行,以便捕本文档来自技高网...
话题知晓的字建议

【技术保护点】
一种方法,包括:接收包含多个字的输入;确定有条件的计数;确定无条件的计数;基于所述无条件的计数和所述有条件的计数,确定针对所述多个字中的字对的调整因子;生成定义多个字聚类的数据结构,所述多个字聚类中的单个字聚类包括所述多个字中的至少一个字;以及基于所述字对的单个字之间的公共聚类的数量,重构所述字对的所述调整因子。

【技术特征摘要】
【国外来华专利技术】2015.02.27 US 62/126307;2016.02.10 US 15/0409471.一种方法,包括:接收包含多个字的输入;确定有条件的计数;确定无条件的计数;基于所述无条件的计数和所述有条件的计数,确定针对所述多个字中的字对的调整因子;生成定义多个字聚类的数据结构,所述多个字聚类中的单个字聚类包括所述多个字中的至少一个字;以及基于所述字对的单个字之间的公共聚类的数量,重构所述字对的所述调整因子。2.根据权利要求1所述的方法,进一步包括:获得指示字的输入;以及重构与包含所述字的一个或多个字聚类相关联的新鲜度值,对所述新鲜度值的修改指示包含所述字的所述一个或多个字聚类是比所述多个字聚类中的其它字聚类更新近的。3.根据权利要求1所述的方法,进一步包括:接收文本条目;确定与所述文本条目相关联的所述多个字聚类中的一个或多个字聚类;获得与相关联于所述文本条目的所述多个字聚类中的所述一个或多个字聚类相关联的新鲜度因子;获得与所述一个或多个字聚类相关联的相关调整因子;获得语言模型值;至少部分上基于所述语言模型值和所述相关调整因子,确定与字候选项相关联的候选项概率,其中,从与所述多个字聚类相关联的单个字中选择所述字候选项;以及至少部分上基于所述候选项概率,生成包含所述字候选项的输出。4.根据权利要求3所述的方法,进一步包括:确定多个字候选项,其中,所述多个字候选项中的单个字包括至少部分上基于所述语言模型值和所述相关调整因子的单个候选项概率;至少部分上基于所述单个候选项概率和所述候选项概率,生成指示所述字候选项和所述多个字候选项中的所述单个字的排名的数据;以及生成指示所述排名的输出。5.根据权利要求4所述的方法,其中,所述语言模型值包括其中与所述文本条目相关联的字一般在空上下文中被使用的概率。6.根据权利要求1所述的方法,其中,重构所述字对的所述调整因子还基于所述字之间的至少一个相关度的排名。7.根据权利要求1所述的方法,其中,重构所述字对的所述调整因子包括:确定针对所述多个聚类中的单个聚类的聚类密度;基于针对所述单个聚类的所述聚类密度,确定所述多个聚类的排序;以及基于所述多个聚类的所述排序和所述字对的单个字之间的公共聚类的所述数量,重构所述调整因子。8.一种计算设备,包括:处理器;以及存储器,其具有存储在其上的计算机可执...

【专利技术属性】
技术研发人员:AC罗德斯
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1