一种语料的训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号:19424903 阅读:31 留言:0更新日期:2018-11-14 10:32
本发明专利技术实施例提供了一种语料的训练方法、装置、电子设备和存储介质,该方法包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。本发明专利技术实施例通过不同层级的语言关联不同的地理区域,从而训练样本,增加了样本的数据量,从而提高了学习的地理区域的向量的准确性。

【技术实现步骤摘要】
一种语料的训练方法、装置、电子设备和存储介质
本专利技术涉及自然语言处理的
,特别是涉及一种语料的训练方法、装置、电子设备和存储介质。
技术介绍
在自然语言处理中,城市等地理区域是常用的语料之一。例如,信息推荐系统中,获取到用户所在城市,将该城市作为用户特征输入到预测模型(如神经网络)中,预测用户对某个信息的兴趣度。在处理城市这个语料时,对id类型的特征进行数值化和向量化,即将一个城市转换成一段浮点数值作为输入。一般的方式是将每个城市和省份都看成一个id类型,使用int值来表示,并做one-hot映射得到one-hot向量表示,然后依赖大量的数据去学习每个城市id对应的weight(维度),生成城市的向量city2vec。但是,在某些场景的数据量少,将导致学习出来的城市的向量city2vec准确率低。
技术实现思路
本专利技术实施例提出了一种语料的训练方法、装置、电子设备和存储介质,以解决在缺少数据拟合的情况下,对城市等地理区域学习的向量准确性低的问题。第一方面,本专利技术实施例提供了一种语料的训练方法,包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且本文档来自技高网...

【技术保护点】
1.一种语料的训练方法,其特征在于,包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。

【技术特征摘要】
1.一种语料的训练方法,其特征在于,包括:获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;将所述语言作为节点,按照所述从属关系生成语言树;在所述语言树中,将所述地理区域划分至所述节点;将处于同一个节点中的地理区域训练为目标语料。2.根据权利要求1所述的方法,其特征在于,所述节点包括父节点与子节点,所述将所述语言作为节点,按照所述从属关系生成语言树,包括:若某个语言具有从属的其他语言,则将所述语言设置为父节点,将从属于所述语言的其他语言设置为从属于所述父节点的子节点。3.根据权利要求1所述的方法,其特征在于,所述在所述语言树中,将所述地理区域划分至所述节点,包括:在所述语言树中,查找所述地理区域对应的语言所表征的节点;将所述地理区域写入所述节点中。4.根据权利要求1或2或3所述的方法,其特征在于,所述将处于同一个节点中的地理区域训练为目标语料,包括:针对某个节点,确定针对所述节点训练的目标语料的数量;在处于所述节点中的地理区域训练中抽取所述数量的训练语料,所述训练语料中包括至少两个目标地理区域;针对每个所述训练语料,查询所述目标地理区域之间的地理距离;针对每个所述训练语料,按照所述地理距离对所述目标地理区域进行排序,作为目标语料。5.一种语料的训练装置,其特征在于,包括:原始语料获取模块,用于获取原始语料,所述原始语料包括地理区域,以及,在所述地理区域中应用的、且具有从属关系的语言;语言树生成模块,用于将所述语言作为节点,按照所述从属关系生成语言树;地理区域划分...

【专利技术属性】
技术研发人员:庄正中
申请(专利权)人:广州荔支网络技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1