利用无监督学习来改进文本到内容建议的方法和系统技术方案

技术编号:27390962 阅读:21 留言:0更新日期:2021-02-21 13:59
用于训练文本到内容建议ML模型的方法和系统包括:访问包含从应用程序收集的未标记训练数据的数据集,未标记训练数据是在用户隐私约束下收集的;将ML模型应用于该数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集,以通过利用受监督ML模型生成的预训练嵌入来训练由应用程序所利用的文本到内容建议ML模型。模型。模型。

【技术实现步骤摘要】
【国外来华专利技术】利用无监督学习来改进文本到内容建议的方法和系统

技术介绍

[0001]智能文本到内容建议服务用于各种各样的计算机程序。例如,文本到内容建议服务可以用于基于作为应用程序中的输入接收的文本,来建议图像、图标或表情符号。通常,此类应用程序可能需要遵守某些隐私和数据规定。因此,这些应用程序可能不能存储和使用输入的用户数据。事实上,它们可以利用诸如掩蔽某些词并且不保持输入文本的原始句子顺序以确保隐私之类的机制。这使得难以正确地进行文本到内容建议。
[0002]此外,经常向提供文本到内容建议的应用程序提供新内容。因为标记新内容的过程通常是耗时且费力的,所以一些新内容可能是未标记的。通常,模型包含的标记数据越多,该过程提供的建议的质量就越好。例如,当向文本到内容服务添加新的未标记内容时,将新数据作为建议进行提供的机率低于使用旧数据。这可能意味着即使向服务增加新内容,也可能长时间地不能向用户呈现新内容。
[0003]因此,需要用于智能地训练文本到内容建议模型的改进系统和方法。

技术实现思路

[0004]在一个通常方面,本公开内容提出了一种设备,该设备具有处理器和与所述处理器进行通信的存储器,其中所述存储器存储有可执行指令,当所述可执行指令被所述处理器执行时,使得该设备执行多个功能。所述功能可以包括:访问包含从应用程序收集的未标记训练数据的数据集,该未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型。该受监督ML模型可以利用该受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
[0005]在另一个通常方面,本申请描述了一种用于训练文本到内容建议ML模型的方法。该方法可以包括:访问包含从应用程序收集的未标记训练数据的数据集,该未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型。该受监督ML模型可以利用该受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
[0006]在另外的通常方面,本申请描述了一种其上存储有指令的非临时性计算机可读介质,当所述指令被执行时,使得可编程设备用于:访问包含从应用程序收集的未标记训练数据的数据集,该未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型。该受监督ML模型可以利用该受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。
[0007]提供本概括部分以便用简化的形式介绍将在以下的详细描述中进一步描述的概念选择。本概括部分并不是旨在标识本专利技术的关键特征或本质特征,也不是用于限制本专利技术的保护范围。此外,所要求保护的主题并不限于解决在本公开内容的任何部分中提到的
任何或所有缺点的实施方式。
附图说明
[0008]附图仅通过示例而非限制的方式,描绘了根据本教导内容的一个或多个实施方式。在附图中,相同的附图标记表示相同或类似的元件。此外,应当理解的是,附图不一定按比例进行绘制。
[0009]图1描绘了可以在其上实现本公开内容的方面的示例性系统。
[0010]图2描绘了用于在应用中提供内容建议的简化示例性系统。
[0011]图3是用于文本到内容模型的示例性模型架构。
[0012]图4是用于在图3的模型架构中使用的预训练嵌入的无监督学习模型的示例模型架构。
[0013]图5是描绘用于提供无监督学习模型以预测无序数据集中的被掩蔽词以及预训练嵌入层的示例性方法的流程图。
[0014]图6是描绘训练基于文本到内容建议模型的示例性方法的流程图。
[0015]图7是示出示例性软件架构的框图,其各个部分可以结合本文描述的各种硬件架构来使用。
[0016]图8是示出被配置为从机器可读介质读取指令并执行本文所描述的任何特征的示例性机器的组件的框图。
具体实施方式
[0017]在以下的详细描述中,通过示例的方式阐述了许多特定细节,以便提供对相关教导的透彻理解。在阅读本说明书之后,对于普通技术人员来说显而易见的是,可以在不使用这些细节的情况下实践各个方面。在其它实例中,在相对较高层级描述了公知的方法、过程、组件和/或电路,而没有详细地描述,以避免不必要地对本教导的各方面造成模糊。
[0018]典型计算机用户通常采用的许多应用程序可以包括除了用于在应用程序中输入数据的文本之外的内容。经常向这些应用程序添加新内容,并且每个内容可以包括大量不同的内容,例如图像、图标、表情符号等等。结果,用户查看大量内容以找到与用户正在处理的文档相关的内容通常是困难且耗时的。因此,用户可能经常放弃在他们的文档中包含此类内容。但是,所述另外的内容可能在文档创建中起重要作用。例如,包括诸如图标和图像之类的内容的呈现可以更清楚地传达消息,并且更具吸引力和更加可呈现。
[0019]文本到内容服务可以通过基于用户的输入文本向用户呈现建议列表,来为用户提供选择与所输入的文本相对应的内容(例如,图像、图标、表情符号或关键字)的简单方式。但是,用于正确提供文本到内容建议的训练模型通常可能是困难的,这是因为训练集可能被部分地过滤以确保用户的隐私。此外,在训练数据集合期间,在演示中的每个幻灯片中,可能仅记录了固定词汇表内的一元词(unigram)(例如,单词)。进一步地,可以对句子中的词进行随机排列(shuffle)以确保不能恢复原始文本。但是,大部分当前使用的文本分析算法是基于包括正确文本序列的有序语句和数据。在没有正确文本序列的情况下,这些算法可能无法工作。
[0020]为了使事情更复杂,可以在给定应用中频繁地引入新内容(例如,图标、图像或表
情符号)。当提供新内容时,可能需要重新训练在服务中使用的文本到内容模型以确保该内容包含在建议中。但是,由于新内容通常没有进行充分标记,而旧内容进行了标记,因此使用传统方法关于这种不平衡数据集来训练文本到内容模型,可能导致很少预测新内容的模型。
[0021]文本到内容服务通常拥有若干模型,每个模型基于用户的文本输入来建议某些类型的内容,例如文本到图像、文本到图标和文本到表情符号。传统上,这些模型中的每一个模型都使用它们自己的方法来训练模型。例如,一些模型使用fastText分类器,而另一些模型使用基于树的模型或模型的组合。这些模型可以使用已知的预训练词嵌入来将输入文本传送到嵌入,然后通过迭代使用它们自己的标记数据来优化模型。当经常为每个模型添加新内容时,该方法不可扩展。此外,各个模型可能面临不平衡的数据问题,因为一些模型可能具有大量的标记数据,而另一些模型则没有。通常,可用的标记数据越多,则提出的建议质量就越好。结果,具有不平衡的标记数据可能导致不平衡的内本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种数据处理系统,其包括:处理器;以及与所述处理器进行通信的存储器,所述存储器包括可执行指令,当所述可执行指令被所述处理器执行时,使得所述数据处理系统执行以下操作的功能:访问包含从应用程序收集的未标记训练数据的数据集,所述未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型应用于所述数据集以生成预训练嵌入;以及将受监督ML模型应用于标记数据集以训练由所述应用程序所利用的文本到内容建议ML模型;其中,所述受监督ML模型利用所述受监督ML模型生成的所述预训练嵌入来训练所述文本到内容建议ML模型。2.根据权利要求1所述的数据处理系统,其中,所述无监督ML模型和所述受监督ML模型中的每一个模型都包括平均池化层和全连接层。3.根据权利要求1所述的数据处理系统,其中,所述指令还使所述处理器向所述受监督ML模型应用初始化权重,所述初始化权重是通过所述无监督ML模型来获得的。4.根据权利要求1所述的数据处理系统,其中,所述指令还使所述处理器向经训练的文本到内容建议ML模型应用工程层,以控制建议的新内容的比例。5.根据权利要求1所述的数据处理系统,其中,所述未标记训练数据包括无序的词列表。6.根据权利要求5所述的数据处理系统,其中:所述无序的词列表包括至少一个被掩蔽词;以及所述无监督ML模型生成与所述被掩蔽词相对应的预测词。7.根据权利要求1所述的数据处理系统,其中,所述无监督ML模型生成多个预训练嵌入层,每个预训练嵌入层具有不同的矢量维度以结合不同的文本到内容建议模型来使用。8.一种用于训练文本到内容建议ML模型的方法,所述方法包括:访问包含从应用程序收集的未标记训练数据的数据集,所述未标记训练数据是在用户隐私约束下收集的;将无监督机器学习(ML)模型...

【专利技术属性】
技术研发人员:李骥张星星韦福如周明A
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1