一种用于同城快递订单的智能信息提取方法技术

技术编号：31832412 阅读：16 留言：0更新日期：2022-01-12 13:09

近年来物流快递行业迅速发展。用户在快递订单中需要手动填入关键信息，耗时费力，效率低下，用户体验不好。在实际场景，尤其在同城快递业务中，自动提取文本中的关键信息，填入相应字段，具有实际应用价值。基于业务数据的特点，我们提出一种基于知识融合的快速地址信息解析方法，允许用户在信息栏输入或粘贴一段文字，模型自动完成关键信息的提取并录入。在实际应用中，在融合知识的小规模数据上训练的模型，能够准确、快速的提取出预定义的各个关键字段信息。该方法数据标注量少，训练代价小，模型易部署，准确率满足实际应用，帮助用户从输入信息中提取出要填写的关键信息，有助有提升用户体验。用户体验。用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于同城快递订单的智能信息提取方法

[0001]本专利技术涉及自然语言处理邻域，尤其涉及到一种用于快递订单信息提取方法。

技术介绍

[0002]近年来物流快递行业迅速发展。用户在快递订单中需要手动填入关键信息，耗时费力，效率低下，用户体验不好。在现实场景中，自动提取文本中的关键信息，填入相应字段，具有实际应用价值。常见的快递订单信息提取方法有基于字典或规则的方法、基于机器学习的方法、基于深度学习的方法。本专利技术采用基于集成模型的方法，输入自然语言文本，输出格式化的预定义订单关键要素信息。本专利技术提供了一种方法，允许用户在信息栏输入或粘贴一段文字，模型自动完成关键信息的提取并录入。

技术实现思路

[0003]有鉴于此，本专利技术采用基于集成模型的方法，输入自然语言文本，输出格式化的预定义订单关键要素信息。本专利技术提供了一种方法，允许用户在信息栏输入或粘贴一段文字，模型自动完成关键信息的提取并录入。减轻人工逐一录入信息的繁琐，提高信息录入效率，增强用户体验。
[0004]本专利技术采用基于集成模型的方法，分为数据预处理模块、信息提取模块、信息后处理模块。输入数据经过数据预处理模块，由原始数据转换为模型输入的格式。接着，信息提取模块对输入文本进行解析，提取出相应的关键信息。然后，信息后处理模块对提取到的信息进行处理加工，转换成规范的结构化数据并输出。最终，输出姓名，POI，详细地址，联系方式等标准化关键信息。
[0005](1).数据预处理。用户输入字符长度近80％集中在10～50...

【技术保护点】

【技术特征摘要】
1.一种用于同城快递订单的智能信息提取方法，其特征在于：包括以下步骤：本发明采用基于集成模型的方法，分为数据预处理模块、信息提取模块、信息后处理模块。输入数据经过数据预处理模块，由原始数据转换为模型输入的格式。接着，信息提取模块对输入文本进行解析，提取出相应的关键信息。然后，信息后处理模块对提取到的信息进行处理加工，转换成规范的结构化数据并输出。最终，输出姓名，POI，详细地址，联系方式等标准化关键信息。2.根据权利要求1所述同城快递订单的智能信息提取方法，其特征在于：数据预处理部分，下单信息用户的输入为键盘输入文字或粘贴数据，其可能包含有噪声，如字符画、全半角标点等影响后续模型的字符。数据预处理模块的目的将输入的文本进行清洗、规范化。具体的，在本方法中包括如下：1).将英文标点统一转换为中文标点；2).去重emoji、字符画等字符；3).去除两个以上连续的空白字符；4).将回车符用中文分号代替，空格用用逗号代替；5).对字符串进行长度判断，实际小于2的字符串，不包含与订单相关信息，因此小于2的字符串直接滤除。3.根据权利要求1所述同城快递订单的智能信息提取方法，其特征在于：信息提取模块作为方法的核心模块之一，目的是完成对各预定义字段的信息提取。用户输入快递订单信息经常为关键信息的机械罗列，核心算法模块我们采用序列标注常见算法，条件随机场(CRF)算法。模型的输入有两列，其中第一列为字和槽位，第二列为词性。为了消除分词错误的影响，我们采用字输入的方式。模型进行标签预测，通过统计序列标注标签，获得相应地址、姓名等实体。4.根据权利要求3所述同城快递订单的智能信息提取方法，其特征在于：模板泛化部分，利用知识词典，将输入文本中的实体词用槽位代替。其中，省市区县类实体采用知识字典形式进行替换，电话和邮编采用正则匹配方式进行替换。实体词与槽位映射关系如表1.所示：表1实体名称
‑
槽位对应表实体名称槽位省#PROVINCE{n...

【专利技术属性】
技术研发人员：薛鹏，于红建，邸岩兴，
申请(专利权)人：北京同城必应科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人