地址文本识别模型的训练方法、地址的预测方法及装置制造方法及图纸

技术编号：26651009 阅读：44 留言：0更新日期：2020-12-09 00:51

本申请提供了一种地址文本识别模型的训练方法、地址的预测方法及装置，该训练方法包括：获取待训练地址文本样本；对待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；对文本内容向量序列和文本位置向量序列进行拼接，得到地址文本向量序列；基于地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。本申请不仅对待训练地址文本样本的文本内容进行向量化，还对待训练地址文本样本的文本位置也进行了向量化，最后再合并使用，能够更好的表现待训练地址文本样本向量化后的地址文本位置关系，从而能够得到预测能力更准确的目标地址文本识别模型，提高对地址预测的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
地址文本识别模型的训练方法、地址的预测方法及装置
本申请涉及自然语言处理和及机器学习
，具体涉及一种地址文本识别模型的训练方法、地址的预测方法及装置。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深...

【技术保护点】
1.一种地址文本识别模型的训练方法，其特征在于，所述训练方法包括：/n获取待训练地址文本样本；/n对所述待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；/n对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列；/n基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。/n

【技术特征摘要】
1.一种地址文本识别模型的训练方法，其特征在于，所述训练方法包括：
获取待训练地址文本样本；
对所述待训练地址文本样本进行向量化，得到文本内容向量序列和文本位置向量序列；
对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列；
基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型。

2.如权利要求1所述的地址文本识别模型的训练方法，其特征在于，所述文本内容向量序列包括词向量序列，所述对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列，包括：
对所述待训练地址文本样本进行词维度分词，得到多个地址文本分词；
对所述多个地址文本分词向量化，得到所述词向量序列；
基于所述多个地址文本分词在所述待训练地址文本样本中的位置对所述多个地址文本分词进行编码，得到所述文本位置向量序列。

3.如权利要求2所述的地址文本识别模型的训练方法，其特征在于，所述文本内容向量序列还包括字向量序列，所述对所述文本内容向量序列和所述文本位置向量序列进行拼接，得到地址文本向量序列，还包括：
对所述待训练地址文本样本进行字维度分词，得到多个地址文本字符；
对所述多个地址文本字符向量化，得到所述字向量序列。

4.如权利要求1所述的地址文本识别模型的训练方法，其特征在于，所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，包括：
基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到训练后的地址文本识别模型；
对训练后的地址文本识别模型进行封装，得到所述目标地址文本识别模型。

5.如权利要求1所述的地址文本识别模型的训练方法，其特征在于，所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练，得到目标地址文本识别模型，之后，包括：
获取用户输入的第一地址文本样本；
基于所述待训练文本样本对所述第一地址文本样本过滤，得到第二地址文本样本；
基于所述第二地址文本样本对所述目标地址文本识别模型训练...

【专利技术属性】
技术研发人员：吴帝，殷浩，王蓉，李博涵，鄞健欢，程昆，张定棋，
申请(专利权)人：丰图科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人