未知词预测器和内容整合的翻译器制造技术

技术编号:20083833 阅读:24 留言:0更新日期:2019-01-15 03:39
本文中描述的技术使得用户能够通过注释和/或自动翻译被预测为是特定用户未知的特定词来丰富他们的词汇。用户体验利用未知词的自适应智能内嵌注释丰富的原始内容。该技术通过了解个体用户在特定语言中的词汇而针对个体用户被定制。当用户消费内容或者执行文档创作/编辑活动时,系统捕获被维持在针对特定用户的私有词汇分析存储(VAS)中的语言使用模式。VAS中的信息被用作确定词可能是用户已知的还是未知的机器分类器的输入。

Unknown Word Predictor and Content Integration Translator

The techniques described in this article enable users to enrich their vocabulary by annotating and/or automatically translating specific words that are predicted to be unknown to specific users. User experience uses adaptive intelligent embedded annotations of unknown words to enrich the original content. The technology is customized for individual users by understanding the vocabulary of individual users in specific languages. When users consume content or perform document authoring/editing activities, the system captures language usage patterns maintained in private vocabulary analysis storage (VAS) for specific users. The information in VAS is used as input to determine whether the word may be a machine classifier known or unknown to the user.

【技术实现步骤摘要】
【国外来华专利技术】未知词预测器和内容整合的翻译器
技术介绍
想要知道未知词的定义的用户可以在复印本或在线词典中查找它。搜索引擎或个人助理应用也可以提供词的定义作为直接搜索结果。另外,将文本从一种语言自动化计算机翻译为另一种语言使更多内容对更多人可用。
技术实现思路
提供本
技术实现思路
从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列概念。本
技术实现思路
不旨在标识要求保护的主题的关键特征或必要特征,也不旨在孤立地用作确定要求保护的主题的范围的辅助。本文中描述的技术使得用户能够通过注释和/或自动翻译被预测为是特定用户未知的特定词来丰富他们的词汇。翻译和/或注释可以在用户阅读的文档内根据上下文进行。例如,未知词可以利用已知的同义词来代替或者被链接到定义。用户体验利用解释预测的未知词的含义的自适应智能内嵌注释丰富的原始内容。原始内容可以是web页面、书、纸、电子邮件、社交帖子、博客条目、或者包括语言内容的任何其他形式的通信。注释可以采取以下形式:对人、地点或事物的解释;定义;翻译;同义词;一个或多个使用示例;使用同一词的又一条真实内容;或者某种其他形式的理解帮助。在一个方面中,未知词在文本中利用已知的同义词来代替。对该技术的使用可以允许用户理解否则由于有限的词汇将没有意义的内容。该技术通过了解个体用户的特定语言的词汇而针对个体用户被定制。当用户消费内容(新闻、娱乐、社交帖子)或者执行文档阅读/创作/编辑活动或通过典型的在线通道(诸如聊天应用、电子邮件应用、语音/视频会议系统)通信时,系统捕获语言使用模式。这些模式可以被附加并维持在针对特定用户的丰富的私有词汇分析存储(VAS)中。VAS是包括一个或多个数据库或数据存储和分析组件的知识库,在模式、统计、特定词列表、频率和上下文数据方面描述用户如何使用一种或多种语言(以及该使用随时间的进展/变化)。附图说明下面参考附图详细描述本申请中描述的技术的各方面,其中:图1是适合于实施本文中描述的技术的各方面的示例性计算环境的框图;图2是根据本文中描述的技术的方面的描绘包括未知词标识和注释引擎的示例性计算环境的示图;图3是根据本文中描述的技术的方面的描绘具有明显地强调的未知词的界面的示图;图4是根据本文中描述的技术的方面的描绘具有针对未知词的解释性注释的界面的示图;图5是根据本文中描述的技术的方面的描绘具有针对未知词的定义性注释的界面的示图;图6是根据本文中描述的技术的方面的描绘具有针对未知词的翻译和同义词注释的界面的示图;图7是描绘根据本文中描述的技术的方面的生成语言理解帮助的方法的示图;图8是描绘根据本文中描述的技术的方面的生成语言理解帮助的方法的示图;图9是描绘根据本文中描述的技术的方面的生成语言理解帮助的方法的示图;以及图10是适合于实施本文中描述的技术的各方面的示例性计算环境的框图。具体实施方式在本文中具体地描述本申请的技术以满足法定要求。然而,描述本身不旨在限制本专利的范围。相反,专利技术人已经预见到要求保护的主题还可以以其他方式来体现,以包括结合其他现有的或未来的技术的与在本文档中描述的步骤不同的步骤或步骤的组合。此外,尽管术语“步骤”和/或“框”可以在本文中用于意指采用的方法的不同的元素,但是这些术语不应当被解读为暗指在所公开的本文中的各个步骤之中或之间的任何特定顺序,除非并且除了当个体步骤的顺序被明确描述时。本文中描述的技术使得用户能够通过注释和/或自动翻译被预测为是特定用户未知的特定词来丰富他们的词汇。翻译和/或注释可以在用户阅读的文档内根据上下文进行。例如,未知词可以利用已知的同义词来代替或者被链接到定义。用户体验利用解释预测的未知词的含义的自适应智能内嵌注释丰富的原始内容。原始内容可以是web页面、书、文档、扫描纸、电子邮件、社交帖子、博客条目、包括文本的图像、或者包括语言内容的任何其他形式的通信。注释可以采取以下形式:对人、地点或事物的解释;定义;翻译;同义词;一个或多个使用示例;使用同一词的又一条真实内容;或者某种其他形式的理解帮助。对该技术的使用可以允许用户理解否则由于有限的词汇将没有意义的内容。该技术通过了解个体用户的特定语言的词汇而针对个体用户被定制。当用户消费内容(新闻、娱乐、社交帖子)或者执行文档阅读/创作/编辑活动或通过典型的在线通道通信时,系统捕获被维持在针对特定用户的丰富的私有词汇分析存储(VAS)中的语言使用模式。VAS是在模式、统计、特定词列表、频率和上下文数据方面描述用户如何正在使用一种或多种语言(以及该使用随时间的进展/变化)的知识库。VAS还可以托管用户对一个或多个连接的词典/翻译服务正在进行的翻译请求的记录。请求的词可以被输入在短语手册中,短语手册可以为VAS的一部分或者与VAS分离。短语手册也可以被填充有由机器分类器确定为对用户未知的词。如本文中所使用的,短语机器分类器可以包括适合于确定词对一个人已知还是未知的目的的任何统计建模技术。VAS也可以托管或者连接到关于特定受众对词的使用率和某些词的可公共获得的统计和元数据。受众可以由诸如地理位置的各种人口统计特性定义。例如,采用英语语言的某些词的使用率可以在居住在澳大利亚的人与居住在美国的人之间显著不同。在一个国家内的各地区之间可以存在显著差异。受众可以基于年龄来定义,因为对于词使用可以存在代际差异。受众还可以通过职业来定义。例如,医生、律师、计算机程序员以及心理学家可以熟悉职业常见的个体词。受众还可以通过兴趣来定义。例如,体育爱好者可以具有对在体育上下文下使用的词的深入理解,然而政治迷可以具有对在政治上下文下使用的词的深入理解,但是具有对在体育上下文下使用的词的浅显理解。包括阅读日志的用户数据可以用于确定用户兴趣。词可以类似地与上下文相关联。即使体育迷可能尚未被暴露于或使用特定词,诸如southpaw(左手投手),但是体育迷比不是体育迷的人更有可能知道southpaw的含义(例如,左撇子投手)。因此,使用上下文作为输入的统计分类器可以对词“southpaw”对体育迷未知比对非体育迷未知分配较低置信度,即使给定两人的相同的暴露和使用水平。用户的VAS可以被维持和保持在后台中作为为用户实现未知词预测的数据和信号的源:在VAS中提供的大量信息可以用于以已知的置信度水平预测任何给定词是否被预期为对用户是已知的。换言之,VAS的内容可以被用作分类器的输入从而以一定置信度水平来计算给定词是已知的还是未知的。如果词被分类为未知的并且用户正在打开包含该词的内容(例如,文章),则系统在文章内利用关于未知词的内嵌提供的注释来丰富原始内容。这在没有来自用户的请求或动作的情况下顺利地发生。技术的各方面不限于使用二元分类器。例如,多类别分类器可以用于将词分类成诸如已知、熟悉、以及未知的若干不同类别中的一个。在其他情况下,分类器可以分配(例如)0与1之间的数值,该数值指示在特定时刻用户熟悉特定词的水平。在一个方面中,二元分类机器用于将词分类为已知的或未知的。作为初始步骤,具有高于语言内的阈值共性或使用频率的词可以从分析中排除并且被指定为已知。例如,如“the(该)”、“you(你)”、“him(他)”以及“her(她)”的词在英语语言中被广泛地使用并且是已知的。二元分类机器可以被训练以分析VAS中与词汇知识有关的用本文档来自技高网...

【技术保护点】
1.一种生成语言理解帮助的方法,包括:采用特定用户可能未知的第一语言构建词的用户特定短语手册,所述用户特定短语手册包括未知词;接收包括正由所述特定用户访问的文本的内容;通过将所述文本中的词与所述用户特定短语手册中的词进行比较来确定所述未知词处于所述文本内;更改所述内容内的所述未知词的外观以提供所述未知词是可选择的指示;接收用户与所述未知词交互的指示;以及输出提供关于所述未知词的额外信息的注释以用于显示。

【技术特征摘要】
【国外来华专利技术】2016.05.31 US 15/168,4031.一种生成语言理解帮助的方法,包括:采用特定用户可能未知的第一语言构建词的用户特定短语手册,所述用户特定短语手册包括未知词;接收包括正由所述特定用户访问的文本的内容;通过将所述文本中的词与所述用户特定短语手册中的词进行比较来确定所述未知词处于所述文本内;更改所述内容内的所述未知词的外观以提供所述未知词是可选择的指示;接收用户与所述未知词交互的指示;以及输出提供关于所述未知词的额外信息的注释以用于显示。2.根据权利要求1所述的方法,其中所述额外信息是采用第二语言对所述未知词的翻译。3.根据权利要求1所述的方法,其中所述方法还包括:确定所述特定用户已经搜索了关于所述未知词的信息;以及将所述未知词添加到所述用户特定短语手册。4.根据权利要求1所述的方法,其中所述用户特定短语手册由机器分类器填充,所述机器分类器基于针对所述特定用户的阅读数据将词分类为所述特定用户已知的或未知的。5.根据权利要求4所述的方法,其中所述方法包括构建用户特定词汇分析存储(VAS),所述VAS包括词在由所述特定用户撰写的文本和由所述特定用户阅读的文本内出现的频率,其中来自所述VAS的信息被用作所述机器分类器的输入以便对词进行分类。6.根据权利要求5所述的方法,其中所述方法还包括更新所述VAS以包括所述特...

【专利技术属性】
技术研发人员:G·克拉萨达基斯
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1