一种基于NER的非标准中文快递寄件信息识别方法及系统技术方案

技术编号:30828542 阅读:13 留言:0更新日期:2021-11-18 12:34
本发明专利技术提供一种基于NER的非标准中文快递寄件信息识别方法及系统,从快递公司的下单数据统一获取快递寄件信息,然后对于数据预处理,得到标注数据集;读取数据,建立文本向量化模型进行单词特征表示,得到单词嵌入和位置嵌入;建立时序概率预测模型进行语义解码,得到对应的标签得分概率;建立最大化概率预测学习数据集中的标签转移概率,修正时序概率预测模型的输出,得到准确合理的标签预测序列;对非标准中文快递寄件信息实体识别结果进行可视化展示。本发明专利技术从正反两个方向挖掘文本中的上下文信息并考虑字符间的关联性从而输出更准确的预测序列,很好的改善了用户输入不规范时寄件信息要素识别精度较低的情况。寄件信息要素识别精度较低的情况。寄件信息要素识别精度较低的情况。

【技术实现步骤摘要】
一种基于NER的非标准中文快递寄件信息识别方法及系统


[0001]本专利技术涉及智能快递
,具体涉及一种基于NER的非标准中文快递寄件信息识别方法及系统。

技术介绍

[0002]随着互联网和电子商务的兴起,快递行业飞速发展。这给末端快递员的揽件和派件带来的了巨大的压力。如何提升用户体验感和快递行业的寄件效率已经成为目前的研究重点。通过在快递下单过程中减轻繁琐程度规范化用户快递寄件信息,可以提高快递下单效率和末端快递员的配送效率,是解决目前快递揽件和派件效率低下的一种可行且有效的途径。
[0003]现有技术中,只考虑了用户输入规范的寄件信息的情况,即每个客户输入文本格式为姓名

电话号

省/自治区/直辖市

市/自治州/县/自治县



详细地址,但是实际应用场景中,由于中文快递地址信息表达方式的多样性和复杂性,使解析过程变得尤为复杂。针对该问题,现有的解决方法基于规则的中文地址解析方法、基于统计模型的中文地址解析方法和基于深度学习的中文地址解析方法。然而基于规则的中文地址解析方法,该方法在具有严格规则性的地址信息上有一定的识别精度,并且在很大程度上依赖较为完备的词典以及需要人工参与修正。当用户输入非标准快递地址信息时,识别精度大打折扣;针对基于规则的方法适应性不强、扩展性较差等问题,基于统计模型的中文快递地址解析方法应用到了中文快递地址解析上,这在一定程度上克服了基于词典和规则方法的不足,同时避免了基于规则方法的切分规则对分词效率低的问题。基于统计的中文地址切分方法效果虽较传统的基于规则的地址切分方法好,并且概率模型具有良好的分割效果和良好的解释性,但是该方法的分词效果受到特征设定的限制,所以需要防止特征过多出现模型训练过拟合等问题;基于深度学习的中文地址信息解析方法在很大程度上改善了中文分词的效率和计算性。由于基于深度学习的地址解析方法大多应用于英文领域、只完成了部分非规范化的中文地址新信息的处理、识别地址要素,并且在参数较复杂时,模型的灵活性不高,并不能很好的贴合用户的实际需要。同时用户输入形式不固定、种类繁多,大大增强了中文寄件信息解析的难度。因此现有的算法一般很难直接用于非标准化中文快递寄件信息识别问题的求解。
[0004]综上,现有的研究存在以下不足:
[0005]1)现有的研究仅在具有严格规则性的地址信息上有一定的识别精度,并且现有方法很大程度上依赖较为完备的词典以及需要人工参与修正,适应性不强、扩展性较差;
[0006]2)现有的方法的分词效果受到特征设定的限制,所以需要防止特征过多出现模型训练过拟合等问题;
[0007]3)现有的方法只完成了部分非规范化的中文地址新信息的处理、识别地址要素,并且在参数较复杂时,模型的灵活性不高,并不能很好的贴合用户的实际需要。

技术实现思路

[0008]本专利技术提供一种基于NER的非标准中文快递寄件信息识别方法,方法得到准确合理的标签预测序列,根据预测标签,得到所需实体。
[0009]方法包括:
[0010]步骤1:从快递公司的下单数据统一获取快递寄件信息,然后对于数据预处理,得到标注数据集;
[0011]步骤2:读取数据,建立文本向量化模型进行单词特征表示,得到单词嵌入和位置嵌入;
[0012]步骤3:建立时序概率预测模型进行语义解码,得到对应的标签得分概率;
[0013]步骤4:建立最大化概率预测学习数据集中的标签转移概率,修正时序概率预测模型的输出,得到准确合理的标签预测序列;
[0014]步骤5:对非标准中文快递寄件信息实体识别结果进行可视化展示。
[0015]本专利技术中,所述步骤1的具体步骤如下:
[0016]步骤1.1:从快递公司的下单数据统一获取快递寄件信息,形成中文快递寄件信息数据集;
[0017]步骤1.2:对于得到的中文快递寄件信息数据集,进行预处理,将文本以单个字符为单元进行分词;
[0018]步骤1.3:以BIEO体系进行对单个字符进行标注。
[0019]本专利技术中,所述步骤2包括:建立文本向量化模型进行词嵌入,对单词的特征进行表示,构建快递寄件信息文本中词序列的分布,用以评估其中任意一词序列的概率。
[0020]本专利技术中,所述步骤3还包括:利用时序概率预测模型从双向记忆所需要的信息和遗忘无用信息;
[0021]时序概率预测模型的单元由当前时刻的输入字x
t
、单元状态C
t
、临时单元状态隐藏状态h
t
、遗忘门f
t
、记忆门i
t
和输出门o
t
组成;
[0022]步骤3.1:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算遗忘门,选择要遗忘的信息得到f
t
。公式如下:
[0023]f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0024]步骤3.2:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算记忆门选择要记忆的信息,得到i
t
和临时细胞状态公式如下:
[0025]i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0026]步骤3.3:根据记忆门的值i
t
,遗忘门的值,f
t
,临时细胞状态上一时刻细胞状态C
t
‑1,去计算当前时刻的细胞状态C
t
。公式如下:
[0027][0028]步骤3.4:根据前一时刻的隐层状态h
t
‑1,当前时刻的输入词x
t
和当前时刻的细胞状态C
t
,计算输出门的值o
t
和隐层状态h
t
。公式如下:
[0029]h
t
=o
t
*tanh(C
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0030]o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0031]在每个单元时刻都通过记忆门和本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于NER的非标准中文快递寄件信息识别方法,其特征在于,方法包括:步骤1:从快递公司的下单数据统一获取快递寄件信息,然后对于数据预处理,得到标注数据集;步骤2:读取数据,建立文本向量化模型进行单词特征表示,得到单词嵌入和位置嵌入;步骤3:建立时序概率预测模型进行语义解码,得到对应的标签得分概率;步骤4:建立最大化概率预测学习数据集中的标签转移概率,修正时序概率预测模型的输出,得到准确合理的标签预测序列;步骤5:对非标准中文快递寄件信息实体识别结果进行可视化展示。2.如权利要求1所述的基于NER的非标准中文快递寄件信息识别方法,其特征在于,所述步骤1的具体步骤如下:步骤1.1:从快递公司的下单数据统一获取快递寄件信息,形成中文快递寄件信息数据集;步骤1.2:对于得到的中文快递寄件信息数据集,进行预处理,将文本以单个字符为单元进行分词;步骤1.3:以BIEO体系进行对单个字符进行标注。3.如权利要求1所述的基于NER的非标准中文快递寄件信息识别方法,其特征在于,所述步骤2包括:建立文本向量化模型进行词嵌入,对单词的特征进行表示,构建快递寄件信息文本中词序列的分布,用以评估其中任意一词序列的概率。4.如权利要求1所述的基于NER的非标准中文快递寄件信息识别方法,其特征在于,所述步骤3还包括:利用时序概率预测模型从双向记忆所需要的信息和遗忘无用信息;时序概率预测模型的单元由当前时刻的输入字x
t
、单元状态C
t
、临时单元状态、隐藏状态h
t
、遗忘门f
t
、记忆门i
t
和输出门o
t
组成;步骤3.1:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算遗忘门,选择要遗忘的信息得到f
t
;公式如下:f
t
=σ(W
f
·
[h
t
‑1,x
t
]+b
f
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)步骤3.2:根据前一时刻的隐层状态h
t
‑1和当前时刻的输入词x
t
,计算记忆门选择要记忆的信息,得到i
t
和临时细胞状态公式如下:i
t
=σ(W
i
·
[h
t
‑1,x
t
]+b
i
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)步骤3.3:根据记忆门的值i
t
,遗忘门的值,f
t
,临时细胞状态上一时刻细胞状态C
t
‑1,去计算当前时刻的细胞状态C
t
;公式如下:步骤3.4:根据前一时刻的隐层状态h
t
‑1,当前时刻的输入词x
t
和当前时刻的细胞状态C
t
,计算输出门的值o
t
和隐层状态h
t
;公式如下:h
t
=o
t
*tanh(C
t
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)o
t
=σ(W
o
·
[h
t
‑1,x
t
]+b
o
)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)在每个单元时刻都通过记忆门和遗忘门对单元状态中的信息进行更新、丢弃,计算出有用的信息传递到下一单元,最终得到与句子长度相同的状态序列{h0,h1,h2,...,h
n
‑1,}。
5.如权利要求1所述的基于NER的非标准...

【专利技术属性】
技术研发人员:孟凡超叶子初佃辉周学权
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1