针对头衔标准化的与语言无关的机器学习模型制造技术

技术编号:23672720 阅读:37 留言:0更新日期:2020-04-04 18:06
在示例实施例中,提供了一种系统,机器学习模型通过该系统被训练以预测针对给定原始头衔的标准化。可以训练一种神经网络,该神经网络的输入是原始头衔(例如,查询字符串)以及候选头衔列表(分类法中的头衔标识、或英语字符串),其产生该原始头衔和每个候选头衔属于同一头衔的概率。该模型能够以在训练数据中包含的任何语言将头衔标准化,而无需首先对头衔进行语言识别或规范化。另外地,该模型能够受益于“外来词”(从外语中采用的词,其具有很少或没有修改)的存在以及语言之间的关系。

A language independent machine learning model for Title Standardization

【技术实现步骤摘要】
针对头衔标准化的与语言无关的机器学习模型
本公开内容一般涉及用于解决在分析社交网络中的分类数据时的技术挑战的计算机技术。更加具体地,本公开涉及用于针对标准化的与语言无关的机器学习模型。
技术介绍
互联网的兴起引发了两种截然不同的现象:社交网络的出现的增加,其中,其对应的成员简档对大量人可见;以及使用这些社交网络来执行针对人员和公司的搜索的增加。基于各种分类法中的实体来将成员(例如,个人或公司)简档的各种属性标准化是很常见的。例如,可以为公司列出一个行业,其中,该行业是从行业分类法中的多个条目(即由社交网络服务保存的数据结构)中选择的。该行业分类法可以包括可能的行业的层级组织。例如,行业分类法中的“信息技术”行业类别可以具有“计算机软件”、“计算机硬件”、和“计算机网络”的子类别。行业分类法可以将所述子类别组织成与“信息技术”父节点相对应的子节点。在行业分类法中可以存在许多层类别和子类别。当然,行业只是能够被分配给分类法中的实体的成员属性的一个示例。其他的示例包括职位头衔、学校、技能等。常常用于分析候选项和职业的一个重要的成员属性是职位头本文档来自技高网...

【技术保护点】
1.一种系统,包括:/n具有存储在其上的指令的计算机可读介质,其中,所述指令当由处理器执行时,使得所述系统执行包括以下项的操作:/n获得第一组训练数据,所述第一组训练数据包括职位头衔与标准化的职位头衔标识的对;/n获得第二组训练数据,所述第二组训练数据包括职位头衔与技能的对;/n将所述第一组训练数据馈送到深度卷积神经网络(DCNN)中,所述DCNN被设计为训练预测模型以输出预测分数,所述预测分数指示输入候选职位头衔与输入职位头衔标识相匹配的可能性;/n将所述第二组训练数据馈送到所述DCNN中,以便再次训练所述预测模型;/n将第一候选职位头衔和多个候选职位头衔标识馈送到所述预测模型中,以产生针对...

【技术特征摘要】
20180926 US 16/142,4411.一种系统,包括:
具有存储在其上的指令的计算机可读介质,其中,所述指令当由处理器执行时,使得所述系统执行包括以下项的操作:
获得第一组训练数据,所述第一组训练数据包括职位头衔与标准化的职位头衔标识的对;
获得第二组训练数据,所述第二组训练数据包括职位头衔与技能的对;
将所述第一组训练数据馈送到深度卷积神经网络(DCNN)中,所述DCNN被设计为训练预测模型以输出预测分数,所述预测分数指示输入候选职位头衔与输入职位头衔标识相匹配的可能性;
将所述第二组训练数据馈送到所述DCNN中,以便再次训练所述预测模型;
将第一候选职位头衔和多个候选职位头衔标识馈送到所述预测模型中,以产生针对所述第一候选职位头衔与候选职位头衔标识的每个配对的预测分数;以及
保存所述第一候选职位头衔与来自所述多个候选职位头衔标识中具有最高预测分数的候选职位头衔标识之间的映射。


2.根据权利要求1所述的系统,其中,所述将所述第一组训练数据馈送到所述DCNN中包括:
将所述第一组训练数据传递至所述DCNN的卷积层,所述卷积层包括具有动态可调节的权重的一个或多个过滤器,所述一个或多个过滤器被配置为过滤所述第一组训练数据以产生针对所述第一组训练数据的每个片段的输出容量,所述输出容量针对所述一个或多个过滤器中的每个过滤器包括不同的特征映射;
将来自所述卷积层的输出容量传递通过非线性层,所述非线性层对来自所述卷积层的输出容量应用非线性函数;
将来自所述非线性层的输出容量传递通过池化层,所述池化层降低来自所述非线性层的输出容量的维度;
将来自所述池化层的输出容量传递通过分类层,所述分类层包括专用卷积层,所述专用卷积层具有过滤器,所述过滤器被设计为基于来自所述池化层的输出容量来输出针对所述第一组训练数据的每个片段的预测分数;
将所述第一组训练数据传递通过损失层,所述损失层对所述第一组训练数据应用损失函数,以得出对误差水平的指示,所述误差水平是来自所述分类层的、针对所述第一组训练数据的每个片段的所述预测分数与来自所述第一组训练数据的每个片段的标签的预测分数的比较;
确定针对所述第一组训练数据的所述误差水平的组合是否超过预设阈值;以及
响应于确定所述误差水平的所述组合超过所述预设阈值,更新所述DCNN的所述卷积层中的所述一个或多个过滤器的所述权重,以降低所述误差水平的所述组合并且使用不同的一组训练数据来重复对所述DCNN的所述训练。


3.根据权利要求1所述的系统,其中,所述第一组训练数据是从头衔标识的分类法获得的,所述分类法具有所述头衔标识与头衔之间的存储的映射。


4.根据权利要求1所述的系统,其中,所述第一组训练数据是从在线服务的成员的成员简档获得的,所述成员简档中的每个成员简档是以至少两种语言书写的。


5.根据权利要求1所述的系统,其中,所述第一组训练数据是从机器翻译的头衔获得的。


6.根据权利要求1所述的系统,其中,所述第一组训练数据是从头衔的群组获得的,所述头衔的群组与其他头衔在字符方面是类似的。


7.根据权利要求1所述的系统,其中,所述第二组训练数据是从在线服务的成员的成员简档获得的。


8.一种计算机实现的方法,包括:
获得第一组训练数据,所述第一组训练数据包括职位头衔与标准化的职位头衔标识的对;
获得第二组训练数据,所述第二组训练数据包括职位头衔与技能的对;
将所述第一组训练数据馈送到深度卷积神经网络(DCNN)中,所述DCNN被设计为训练预测模型以输出预测分数,所述预测分数指示输入候选职位头衔与输入职位头衔标识相匹配的可能性;
将所述第二组训练数据馈送到所述DCNN中,以便再次训练所述预测模型;
将第一候选职位头衔和多个候选职位头衔标识馈送到所述预测模型中,以产生针对所述第一候选职位头衔与候选职位头衔标识的每个配对的预测分数;以及
保存所述第一候选职位头衔与来自所述多个候选职位头衔标识中具有最高预测分数的候选职位头衔标识之间的映射。


9.根据权利要求8所述的方法,其中,所述将所述第一组训练数据馈送到所述DCNN中包括:
将所述第一组训练数据传递至所述DCNN的卷积层,所述卷积层包括具有动态可调节的权重的一个或多个过滤器,所述一个或多个过滤器被配置为过滤所述第一组训练数据以产生针对所述第一组训练数据的每个片段的输出容量,所述输出容量针对所述一个或多个过滤器中的每个过滤器包括不同的特征映射;
将来自所述卷积层的输出容量传递通过非线性层,所述非线性层对来自所述卷积层的输出容量应用非线性函数;
将来自所述非线性层的输出容量传递通过池化层,所述池化层降低来自所述非线性层的输出容量的维度;
将来自所述...

【专利技术属性】
技术研发人员:S·A·乔尔U·默哈夫D·沙查姆
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1