【技术实现步骤摘要】
地址文本识别模型的训练方法、地址的预测方法及装置
本申请涉及自然语言处理和及机器学习
,具体涉及一种地址文本识别模型的训练方法、地址的预测方法及装置。
技术介绍
自然语言处理(NatureLanguageprocessing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深 ...
【技术保护点】
1.一种地址文本识别模型的训练方法,其特征在于,所述训练方法包括:/n获取待训练地址文本样本;/n对所述待训练地址文本样本进行向量化,得到文本内容向量序列和文本位置向量序列;/n对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列;/n基于所述地址文本向量序列对待训练地址文本识别模型进行训练,得到目标地址文本识别模型。/n
【技术特征摘要】
1.一种地址文本识别模型的训练方法,其特征在于,所述训练方法包括:
获取待训练地址文本样本;
对所述待训练地址文本样本进行向量化,得到文本内容向量序列和文本位置向量序列;
对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列;
基于所述地址文本向量序列对待训练地址文本识别模型进行训练,得到目标地址文本识别模型。
2.如权利要求1所述的地址文本识别模型的训练方法,其特征在于,所述文本内容向量序列包括词向量序列,所述对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列,包括:
对所述待训练地址文本样本进行词维度分词,得到多个地址文本分词;
对所述多个地址文本分词向量化,得到所述词向量序列;
基于所述多个地址文本分词在所述待训练地址文本样本中的位置对所述多个地址文本分词进行编码,得到所述文本位置向量序列。
3.如权利要求2所述的地址文本识别模型的训练方法,其特征在于,所述文本内容向量序列还包括字向量序列,所述对所述文本内容向量序列和所述文本位置向量序列进行拼接,得到地址文本向量序列,还包括:
对所述待训练地址文本样本进行字维度分词,得到多个地址文本字符;
对所述多个地址文本字符向量化,得到所述字向量序列。
4.如权利要求1所述的地址文本识别模型的训练方法,其特征在于,所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练,得到目标地址文本识别模型,包括:
基于所述地址文本向量序列对待训练地址文本识别模型进行训练,得到训练后的地址文本识别模型;
对训练后的地址文本识别模型进行封装,得到所述目标地址文本识别模型。
5.如权利要求1所述的地址文本识别模型的训练方法,其特征在于,所述基于所述地址文本向量序列对待训练地址文本识别模型进行训练,得到目标地址文本识别模型,之后,包括:
获取用户输入的第一地址文本样本;
基于所述待训练文本样本对所述第一地址文本样本过滤,得到第二地址文本样本;
基于所述第二地址文本样本对所述目标地址文本识别模型训练...
【专利技术属性】
技术研发人员:吴帝,殷浩,王蓉,李博涵,鄞健欢,程昆,张定棋,
申请(专利权)人:丰图科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。