System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及计算机,具体涉及一种兴趣面数据解析方法、装置、电子设备及存储介质。
技术介绍
1、人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。在智慧物流的末端,兴趣面(area of interest,aoi)识别是智能物流的最后一公里问题,其中,aoi指的是快件收派业务的最小粒度的地理实体(如居民小区、工厂、学校等),在地理信息系统中称为兴趣面,aoi是由多边形围栏边界和特征数据组成,描绘了地图数据中的区域状的地理实体。
2、在物流领域,通讯地址到末端aoi的匹配是智慧物流的一项重要的基础服务,通讯地址到末端aoi分配准确与否,是影响收派业务时效的核心指标,也是关系用户服务体验的重要一环。
3、在实际应用场景中,目标通讯地址文本存在写法自由、缺省别名多、地域性强等特点,对通讯地址到末端aoi匹配等造成困难。在现有通讯地址到ao i识别匹配方法中,存在着识别困难和识别准确率过低的问题。
技术实现思路
1、本申请提供一种提升通讯地址到末端aoi的匹配准确率,有利于降低用户订单配送最后一公里中的末端aoi错分问题,减少人工审核成本的一种兴趣面数据解析方法、装置、电子设备及存储介质。
2、一方面,本申请提供一种兴趣面数据解析方法,包括:
3、获取目标通讯地址文本;
4、对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量;
5、将所述文本特征向量、所述词级特征向量和所
6、根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据。
7、在本申请一种可能的实现方式中,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
8、对所述目标通讯地址文本进行分词处理,得到分词序列,所述分词序列包括所述目标通讯地址文本中的多个地址要素分词;
9、对所述目标通讯地址文本进行分字处理,得到单字序列,所述单字序列包括所述目标通讯地址文本中的所有地址单字;
10、将所述单字序列和所述分词序列进行拼接,得到字词文本序列;
11、对所述字词文本序列进行向量化编码,得到所述字词文本序列的所述文本特征向量。
12、在本申请一种可能的实现方式中,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
13、对所述字词文本序列中的每个所述地址要素分词的词编码和每个所述地址单字的词编码同时进行向量化编码,得到一个固定向量维度的所述词级特征向量。
14、在本申请一种可能的实现方式中,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
15、对每个所述地址要素分词和每个所述地址单字在所述字词文本序列中按照顺序排列的位置序号进行向量化编码,得到向量维度为一个固定向量维度的所述位置特征向量。
16、在本申请一种可能的实现方式中,所述根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据,包括:
17、根据所述融合文本特征向量,通过预训练的兴趣面解析模型进行兴趣面数据解析,得到所述目标通讯地址文本的所述目标兴趣面数据。
18、在本申请一种可能的实现方式中,在所述根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据之前,所述方法包括:
19、获取训练样本数据,所述训练样本数据包括样本地址文本;
20、对所述样本地址文本进行向量化编码,得到样本文本特征向量、样本词级特征向量和样本位置特征向量;
21、将所述样本文本特征向量、所述样本词级特征向量和所述样本位置特征向量进行向量拼接,得到样本融合文本特征向量;
22、将所述样本融合文本特征向量作为待训练模型的输入,将兴趣面样本数据作为输出,进行模型训练,得到所述兴趣面解析模型。
23、在本申请一种可能的实现方式中,所述对所述样本地址文本进行向量化编码,得到样本文本特征向量、样本词级特征向量和样本位置特征向量,包括:
24、根据所述的对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量的方法步骤进行操作,得到所述样本文本特征向量、所述样本词级特征向量和所述样本位置特征向量,其中,所述目标通讯地址文本为所述样本地址文本。
25、在本申请一种可能的实现方式中,所述将所述样本融合文本特征向量作为待训练模型的输入,将兴趣面样本数据作为输出,进行模型训练,得到所述兴趣面解析模型,包括:
26、将输入的样本融合文本特征向量输入至所述待训练模型中进行两次向前传播,分别得到两个不同的输出分布概率;
27、计算两个不同的所述输出分布概率的双向kl散度;
28、根据两个不同的所述输出分布概率的所述双向kl散度和预设的损失函数,对所述待训练模型进行评估,最终得到所述兴趣面解析模型。
29、另一方面,本申请提供一种兴趣面数据解析装置,所述装置包括:
30、获取模块,用于获取目标通讯地址文本;
31、向量编码模块,用于对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量;
32、向量融合模块,用于将所述文本特征向量、所述词级特征向量和所述位置特征向量进行向量拼接,得到融合文本特征向量;
33、解析模块,用于根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据。
34、另一方面,本申请还提供计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的兴趣面数据解析方法中的步骤。
35、本申请中通过获取目标通讯地址文本;对目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量;将文本特征向量、词级特征向量和位置特征向量进行向量拼接,得到融合文本特征向量;根据融合文本特征向量进行兴趣面数据解析,得到目标通讯地址文本的目标兴趣面数据,即本申请通过上述步骤将目标通讯地址文本转换为融合文本特征向量,基于该融合文本特征向量进行兴趣面解析,能够更加准确地解析出目标通讯地址文本的目标兴趣面数据,解决了因目标通讯地址文本中的文本难以识别,导致地址到末端兴趣面识别困难的问题,有效提升了地址到末端兴趣面识别效率,降低用户订单配送最后一公里中的末端aoi错分问题,减少人工审核成本。
本文档来自技高网...【技术保护点】
1.一种兴趣面数据解析方法,其特征在于,包括:
2.如权利要求1所述的兴趣面数据解析方法,其特征在于,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
3.如权利要求2所述的兴趣面数据解析方法,其特征在于,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
4.如权利要求3所述的兴趣面数据解析方法,其特征在于,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
5.如权利要求1所述的兴趣面数据解析方法,其特征在于,所述根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据,包括:
6.如权利要求5所述的兴趣面数据解析方法,其特征在于,在所述根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据之前,所述方法包括:
7.如权利要求6所述的兴趣面数据解析方法,其特征在于,所述对所述样本地址文本进行向量化编码,得到样本文本特
8.如权利要求7所述的兴趣面数据解析方法,其特征在于,所述将所述样本融合文本特征向量作为待训练模型的输入,将兴趣面样本数据作为输出,进行模型训练,得到所述兴趣面解析模型,包括:
9.一种兴趣面数据解析装置,其特征在于,所述装置包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至8任一项所述的兴趣面数据解析方法中的步骤。
...【技术特征摘要】
1.一种兴趣面数据解析方法,其特征在于,包括:
2.如权利要求1所述的兴趣面数据解析方法,其特征在于,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
3.如权利要求2所述的兴趣面数据解析方法,其特征在于,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
4.如权利要求3所述的兴趣面数据解析方法,其特征在于,所述对所述目标通讯地址文本进行向量化编码,得到文本特征向量、词级特征向量和位置特征向量,包括:
5.如权利要求1所述的兴趣面数据解析方法,其特征在于,所述根据所述融合文本特征向量进行兴趣面数据解析,得到所述目标通讯地址文本的目标兴趣面数据,包括:
6.如权利要求5所述的兴趣...
【专利技术属性】
技术研发人员:姚祥禄,金立达,胡怀雄,王珊珊,张定棋,
申请(专利权)人:丰图科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。