一种语料的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:19424903 阅读:18 留言:0更新日期:2018-11-14 10:32
本发明专利技术实施例提供了一种语料的训练方法、装置、电子设备和存储介质,该方法包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。本发明专利技术实施例通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。

【技术实现步骤摘要】
一种语料的训练方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理的
,特别是涉及一种语料的训练方法、装置、电子设备和存储介质。
技术介绍
在自然语言处理中,城市等地理区域是常用的语料之一。例如,信息推荐系统中,获取到用户所在城市,将该城市作为用户特征输入到预测模型(如神经网络)中,预测用户对某个信息的兴趣度。在处理城市这个语料时,对id类型的特征进行数值化和向量化,即将一个城市转换成一段浮点数值作为输入。一般的方式是将每个城市和省份都看成一个id类型,使用int值来表示,并做one-hot映射得到one-hot向量表示,然后依赖大量的数据去学习每个城市id对应的weight(维度),生成城市的向量city2vec。但是,在某些场景的数据量少,将导致学习出来的城市的向量city2vec准确率低。
技术实现思路
本专利技术实施例提出了一种语料的训练方法、装置、电子设备和存储介质,以解决在缺少数据拟合的情况下,对城市等地理区域学习的向量准确性低的问题。第一方面,本专利技术实施例提供了一种语料的训练方法,包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。可选地,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。可选地,所述在所述语言树中,将所述地理区域划分至所述节点,包括:在所述语言树中,查找所述地理区域对应的语言所表征的节点;将所述地理区域写入所述节点中。可选地,所述将处于同一个节点中的地理区域训练为目标语料,包括:针对某个节点,确定针对所述节点训练的目标语料的数量;在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;针对每个所述训练语料,查询所述目标地理区域之间的地理距离;针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。可选地,所述针对某个节点,确定针对所述节点训练的目标语料的数量,包括:针对某个节点,查询所述节点在所述语言树中所处的节点层次;按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。可选地,所述目标地理区域包括中心地理区域与非中心地理区域,所述在处于所述节点中的地理区域训练中抽取所述数量的训练语料,包括:在每次抽取训练语料时,在处于所述节点的地理区域中随机抽取一个地理区域作为中心地理区域;在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。可选地,所述针对每个所述训练语料,查询所述目标地理区域之间的地理距离,包括:针对每个所述训练语料,查询所述中心地理区域与所述非中心地理区域之间的地理距离。可选地,所述针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料,包括:针对每个所述训练语料,以所述中心地理区域作为基点,按照所述地理距离将所述非中心地理区域排序在所述中心地理区域两侧;其中,所述非中心地理区域与所述中心地理区域之间的排序距离与所述非中心地理区域与所述中心地理区域之间的地理距离正相关。可选地,还包括:根据所述目标语料训练地理区域向量模型;将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。第二方面,本专利技术实施例提供了一种语料的训练装置,包括:原始语料获取模块,用于获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;语言树生成模块,用于将所述语言作为节点,按照所述从属关系生成语言树;地理区域划分模块,用于在所述语言树中,将所述地理区域划分至所述节点;目标语料训练模块,用于将处于同一个节点中的地理区域训练为目标语料。可选地,所述节点包括父节点与子节点,所述语言树生成模块包括:节点生成子模块,用于若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。可选地,所述地理区域划分模块包括:节点查找子模块,用于在所述语言树中,查找所述地理区域对应的语言所表征的节点;地理区域写入子模块,用于将所述地理区域写入所述节点中。可选地,所述目标语料训练模块包括:数量确定子模块,用于针对某个节点,确定针对所述节点训练的目标语料的数量;训练语料抽取子模块,用于在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;地理距离查询子模块,用于针对每个所述训练语料,查询所述目标地理区域之间的地理距离;目标地理区域排序子模块,用于针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。可选地,所述数量确定子模块包括:节点层次查询子模块,用于针对某个节点,查询所述节点在所述语言树中所处的节点层次;节点层次确定子模块,用于按照所述节点层次确定目标语料的数量,所述层次与所述数量正相关。可选地,所述目标地理区域包括中心地理区域与非中心地理区域,所述训练语料抽取子模块包括:中心地理区域抽取单元,用于在每次抽取训练语料时,在处于所述节点的地理区域中随机抽取一个地理区域作为中心地理区域;非中心地理区域抽取单元,用于在除所述中心地理区域的其他地理区域中随机抽取一个或多个地理区域作为非中心地理区域。可选地,所述地理距离查询子模块包括:中心距离查询单元,用于针对每个所述训练语料,查询所述中心地理区域与所述非中心地理区域之间的地理距离。可选地,所述目标地理区域排序子模块包括:两侧排序单元,用于针对每个所述训练语料,以所述中心地理区域作为基点,按照所述地理距离将所述非中心地理区域排序在所述中心地理区域两侧;其中,所述非中心地理区域与所述中心地理区域之间的排序距离与所述非中心地理区域与所述中心地理区域之间的地理距离正相关。可选地,还包括:地理区域向量模型训练模块,用于根据所述目标语料训练地理区域向量模型;向量计算模块,用于将地理区域输入至所述地理区域向量模型,以计算所述地理区域的向量。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的语料的训练方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的语料的训练方法。本专利技术实施例包括以下优点:在本专利技术实施例中,获取的原始语料包括地理区域,以及,在地理区域中应用的、且具有从属关系的语言,将语言作为节点,按照从属关系生成语言树,在语言树中,将地理区域划分至节点,将处于同一个节点中的地理区域训练为目标语料,通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。附图说明图1是本专利技术一个实施例的一种语料的训练方法的步骤流程图;图2是本专利技术一个实施例的一种语言树的结构示例图;图3是本专利技术一个实施例的一种节点的属性示例图;本文档来自技高网...

【技术保护点】
1.一种语料的训练方法,其特征在于,包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。

【技术特征摘要】
1.一种语料的训练方法,其特征在于,包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。2.根据权利要求1所述的方法,其特征在于,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。3.根据权利要求1所述的方法,其特征在于,所述在所述语言树中,将所述地理区域划分至所述节点,包括:在所述语言树中,查找所述地理区域对应的语言所表征的节点;将所述地理区域写入所述节点中。4.根据权利要求1或2或3所述的方法,其特征在于,所述将处于同一个节点中的地理区域训练为目标语料,包括:针对某个节点,确定针对所述节点训练的目标语料的数量;在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;针对每个所述训练语料,查询所述目标地理区域之间的地理距离;针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。5.一种语料的训练装置,其特征在于,包括:原始语料获取模块,用于获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;语言树生成模块,用于将所述语言作为节点,按照所述从属关系生成语言树;地理区域划分...

【专利技术属性】
技术研发人员:庄正中
申请(专利权)人:广州荔支网络技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1