地址兴趣面模型的训练方法、地址的预测方法及装置制造方法及图纸

技术编号：26343153 阅读：16 留言：0更新日期：2020-11-13 20:42

本申请提供了一种地址兴趣面模型的训练方法、地址的预测方法及装置，该地址兴趣面模型的训练方法包括：获取地址文本样本；对地址文本样本进行向量化，得到文本内容向量序列和文本词级向量序列；对文本内容向量序列和文本词级向量序列进行拼接，得到地址文本向量序列；基于地址文本向量序列对待训练地址兴趣面模型进行训练，得到目标地址兴趣面模型。本申请不仅对地址文本样本的文本内容进行向量化，还对地址文本样本的文本词级也进行了向量化，最后再合并使用，能够更好的表现地址文本样本向量化后的地址文本词级关系，从而能够得到预测能力更准确的目标地址兴趣面模型，提高对地址预测的准确率。

The training method of address interest surface model, address prediction method and device

全部详细技术资料下载

【技术实现步骤摘要】
地址兴趣面模型的训练方法、地址的预测方法及装置
本申请涉及自然语言处理和及机器学习
，具体涉及一种地址兴趣面模型的训练方法、地址的预测方法及装置。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。AOI(areaofinterest)，即信息面，也叫兴趣面。指的是地图数据中的区域状的地理实体。大厦、写字楼、广场、医院、学校、居住小区等区域都是独立的AOI，每个AOI包含的地址都有很多不同写法、有不同描述方式。地址写法的多样性使得地址与AOI之间的映射关系不能通过一个有限的字典映射集合来涵盖完整，如：软件...

【技术保护点】
1.一种地址兴趣面模型的训练方法，其特征在于，所述训练方法包括：/n获取地址文本样本；/n对所述地址文本样本进行向量化，得到文本内容向量序列和文本词级向量序列；/n对所述文本内容向量序列和文本词级向量序列进行拼接，得到地址文本向量序列；/n基于所述地址文本向量序列对待训练地址兴趣面模型进行训练，得到目标地址兴趣面模型。/n

【技术特征摘要】
1.一种地址兴趣面模型的训练方法，其特征在于，所述训练方法包括：
获取地址文本样本；
对所述地址文本样本进行向量化，得到文本内容向量序列和文本词级向量序列；
对所述文本内容向量序列和文本词级向量序列进行拼接，得到地址文本向量序列；
基于所述地址文本向量序列对待训练地址兴趣面模型进行训练，得到目标地址兴趣面模型。

2.如权利要求1所述的地址兴趣面模型的训练方法，其特征在于，所述对所述地址文本样本进行向量化，得到文本内容向量序列和文本词级向量序列，包括：
对所述地址文本样本进行分词，得到多个第一地址文本分词和所述多个第一地址文本分词对应的词级序列；
对所述多个第一地址文本分词进行向量化，得到所述文本内容向量序列；
对所述词级序列进行向量化，得到所述文本词级向量序列。

3.如权利要求2所述的地址兴趣面模型的训练方法，其特征在于，所述对所述地址文本样本进行分词，得到多个第一地址文本分词和所述多个第一地址文本分词对应的词级序列，包括：
对所述地址文本样本进行分词，得到多个第二地址文本分词和所述多个第二地址文本分词的词级；
对所述多个第二地址文本分词中词级满足预设条件的第二地址文本分词进行拆分，得到所述多个第一地址文本分词和所述多个第一地址文本分词对应的词级序列。

4.如权利要求3所述的地址兴趣面模型的训练方法，其特征在于，所述基于所述地址文本向量序列对待训练地址兴趣面模型进行训练，得到目标地址兴趣面模型，包括：
基于所述地址文本向量序列获取待训练地址兴趣面模型的预测值；
获取所述待训练地址兴趣面模型的预测值与期望值的误差值；
若所述待训练地址兴趣面模型的预测值与期望值的误差值小于第一预设值，则结束训练，得到所述目标地址兴趣面模型。

5.如权利要求4所述的地址兴趣面模型的训练方法，其特征在于，所述待训练地址兴趣面模型包括注意力层和/或掩膜层；
所述基于所述地址文本向量序列获取待训练地址兴趣面模型的预测值，包括：
基于所述注意力层和/或掩膜层和所述地址文本向量序列中各个向量的词级对所述地址文本向量序列中各个向量进行权重分配，得到权重分配后的地址文本向量序列；
基于所述权重分配后的所述地址文本向量序列获取所述待训练地址兴趣面模型的预测值。

6.如权利要求5所述的地址兴趣面模型的训练方法，其特征在于，所述训练方法还包括：
若所述待训练地址兴趣面模型的预测值与期望值的误差值不小于第一预设值且小于第二预设值，则降低所述待训练地址兴趣面模型的学习率至预设学习率。

7.如权利要求1所述的地址兴趣面模型的训练方法，其特征在于，所述基于所述地址文本向量序列对待训练地址兴趣面模型进行训练，得到目标地址兴趣面模型，之后...

【专利技术属性】
技术研发人员：郭振未，尹飞，赵云杰，胡贵根，张锦，蓝媛青，韩荣妹，张定棋，
申请(专利权)人：丰图科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人