一种用于同城快递订单的智能信息提取方法技术

技术编号:31832412 阅读:16 留言:0更新日期:2022-01-12 13:09
近年来物流快递行业迅速发展。用户在快递订单中需要手动填入关键信息,耗时费力,效率低下,用户体验不好。在实际场景,尤其在同城快递业务中,自动提取文本中的关键信息,填入相应字段,具有实际应用价值。基于业务数据的特点,我们提出一种基于知识融合的快速地址信息解析方法,允许用户在信息栏输入或粘贴一段文字,模型自动完成关键信息的提取并录入。在实际应用中,在融合知识的小规模数据上训练的模型,能够准确、快速的提取出预定义的各个关键字段信息。该方法数据标注量少,训练代价小,模型易部署,准确率满足实际应用,帮助用户从输入信息中提取出要填写的关键信息,有助有提升用户体验。用户体验。用户体验。

【技术实现步骤摘要】
一种用于同城快递订单的智能信息提取方法


[0001]本专利技术涉及自然语言处理邻域,尤其涉及到一种用于快递订单信息提取方法。

技术介绍

[0002]近年来物流快递行业迅速发展。用户在快递订单中需要手动填入关键信息,耗时费力,效率低下,用户体验不好。在现实场景中,自动提取文本中的关键信息,填入相应字段,具有实际应用价值。常见的快递订单信息提取方法有基于字典或规则的方法、基于机器学习的方法、基于深度学习的方法。本专利技术采用基于集成模型的方法,输入自然语言文本,输出格式化的预定义订单关键要素信息。本专利技术提供了一种方法,允许用户在信息栏输入或粘贴一段文字,模型自动完成关键信息的提取并录入。

技术实现思路

[0003]有鉴于此,本专利技术采用基于集成模型的方法,输入自然语言文本,输出格式化的预定义订单关键要素信息。本专利技术提供了一种方法,允许用户在信息栏输入或粘贴一段文字,模型自动完成关键信息的提取并录入。减轻人工逐一录入信息的繁琐,提高信息录入效率,增强用户体验。
[0004]本专利技术采用基于集成模型的方法,分为数据预处理模块、信息提取模块、信息后处理模块。输入数据经过数据预处理模块,由原始数据转换为模型输入的格式。接着,信息提取模块对输入文本进行解析,提取出相应的关键信息。然后,信息后处理模块对提取到的信息进行处理加工,转换成规范的结构化数据并输出。最终,输出姓名,POI,详细地址,联系方式等标准化关键信息。
[0005](1).数据预处理。用户输入字符长度近80%集中在10~50之间,符合正态分布。用户输入较随意,除正常文本外,还存在大量非正常文本(占比在10~20%之间),包括空白字符,表情符,推广链接,聊天记录,这对模型泛化能力提出了更高要求和挑战。原始输入数据经常含有噪声字符串,数据预处理将原始数据变为模型输入的数据格式。
[0006](2).信息提取。上一步预处理后的数据作为模型的输入,通过模型预测,进一步自动提取出相应字段信息。
[0007](3).数据后处理。模型提取出关键字段信息之后,字符串中还可能包含有噪声字符串,需对其做进一步处理,最终输出标准化的各字段信息。
[0008]1.数据预处理
[0009]下单信息用户的输入为键盘输入文字或粘贴数据,其可能包含有噪声,如字符画、全半角标点等影响后续模型的字符。数据预处理模块的目的将输入的文本进行清洗、规范化。具体的,在本方法中包括如下:
[0010]a.将英文标点统一转换为中文标点;
[0011]b.去重emoji、字符画等字符;
[0012]c.去除两个以上连续的空白字符;
[0013]d.将回车符用中文分号代替,空格用用逗号代替;
[0014]e.对字符串进行长度判断,实际小于2的字符串,不包含与订单相关信息,因此小于2的字符串直接滤除。
[0015]2.信息提取模块
[0016]信息提取模块作为方法的核心模块之一,目的是完成对各预定义字段的信息提取。快递地址一般是省、市、县、区、街道、小区、楼号、门牌号、机构名的组合。
[0017]考虑到领域数据的特殊性,我们尝试加入领域知识。通过统计元数据,我们确定加入的领域知识有省、市、县(区)、机构名、食物名等专有名词,不仅包含专有名词的标注名称,还包括专有名词的别称,如“北大”为“北京大学”的别称。
[0018]信息提取模块原理图如图所示。
[0019]用户输入快递订单信息经常为关键信息的机械罗列,核心算法模块我们采用序列标注常见算法,条件随机场(CRF)算法。
[0020]给定X,Y均为线性链表示的随机变量序列,若在给随机变量序列X的条件下,随机变量序列Y的条件概率分布构成条件随机场,即满足马尔可夫性,则称为P(Y|X)为线性链条件随机场。
[0021]模型的输入表2所示,词,词性,其中第一列为字,第二列为词性。为了消除分词错误的影响,我们采用字输入的方式。
[0022]模板泛化 利用知识词典,将输入文本中的实体词用槽位代替。其中,省市区县类实体采用知识字典形式进行替换,电话和邮编采用正则匹配方式进行替换。实体词与槽位映射关系如表所示:
[0023]表1实体名称

槽位对应表
[0024]实体名称槽位省#PROVINCE{n}#市#CITY{n}#区县#COUNTY{n}#电话#TEL{n}#邮编#POSTCODE{n}#
[0025]序列标注
[0026]标签我们采用二级标签,第一级采用BIOES表示,其中B实体词的开始位置,I表示实体词的中间字或词,E表示实体词的结束位置,S表示单字实体,O表示为非实体字或词。二级标签采用实体类别的英文表示。例如,地址类实体标签分别为:B

ADDRESS,I

ADDRESS,E

ADDRESS,S

ADDRESS,O。
[0027]表2序列标注示例
[0028]字词性序列标签#PROVINCE{n}#nspB

ADDRESS#CITY{n}#nscI

ADDRESS#COUNTY{n}#nscuI

ADDRESS七nsI

ADDRESS一nsI

ADDRESS
路nsI

ADDRESS龙nrI

ADDRESS鼎nrI

ADDRESS大nsI

ADDRESS厦nsI

ADDRESS;w0张nrB

NAME三nrE

NAME;w0#TEL{n}#num0;w0邮n0编n0:w0#POSTCODE{n}#npc0
[0029]信息提取
[0030]通过模型预测输出的标签,我们可以获得地址类和人名类实体,然后再用同样的方法,以地址类实体作为输入,输出POI和详细地址。通过以上pipline结构,我们依次获得人名、电话、POI、详细地址等结构化信息。
[0031]3.数据后处理
[0032]经过信息提取模块,输入数据由非结构化数据变为结构化数据,数据后处理的目的使各字段的数据标准化。具体如下:
[0033]a.抽取的各项统一去除连续两个以上空格以及“@”“,”“:”“?”“*”“¥”“&”“!”“#”“$
”“……”“
^”“(”“)”“【”“】”“《”“》”等字符;
[0034]b.电话号码项去除
“‑”
、空格等字符;
[0035]c.poi、详细地址项去除城市,防止实际应用中对定位的干扰。
附图说明
[0036]下面结合附图和实施例对本专利技术作进一步描述:
[0037]图1为本专利技术的流程图。
具体实施方式
[0038]本专利技术采用基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于同城快递订单的智能信息提取方法,其特征在于:包括以下步骤:本发明采用基于集成模型的方法,分为数据预处理模块、信息提取模块、信息后处理模块。输入数据经过数据预处理模块,由原始数据转换为模型输入的格式。接着,信息提取模块对输入文本进行解析,提取出相应的关键信息。然后,信息后处理模块对提取到的信息进行处理加工,转换成规范的结构化数据并输出。最终,输出姓名,POI,详细地址,联系方式等标准化关键信息。2.根据权利要求1所述同城快递订单的智能信息提取方法,其特征在于:数据预处理部分,下单信息用户的输入为键盘输入文字或粘贴数据,其可能包含有噪声,如字符画、全半角标点等影响后续模型的字符。数据预处理模块的目的将输入的文本进行清洗、规范化。具体的,在本方法中包括如下:1).将英文标点统一转换为中文标点;2).去重emoji、字符画等字符;3).去除两个以上连续的空白字符;4).将回车符用中文分号代替,空格用用逗号代替;5).对字符串进行长度判断,实际小于2的字符串,不包含与订单相关信息,因此小于2的字符串直接滤除。3.根据权利要求1所述同城快递订单的智能信息提取方法,其特征在于:信息提取模块作为方法的核心模块之一,目的是完成对各预定义字段的信息提取。用户输入快递订单信息经常为关键信息的机械罗列,核心算法模块我们采用序列标注常见算法,条件随机场(CRF)算法。模型的输入有两列,其中第一列为字和槽位,第二列为词性。为了消除分词错误的影响,我们采用字输入的方式。模型进行标签预测,通过统计序列标注标签,获得相应地址、姓名等实体。4.根据权利要求3所述同城快递订单的智能信息提取方法,其特征在于:模板泛化部分,利用知识词典,将输入文本中的实体词用槽位代替。其中,省市区县类实体采用知识字典形式进行替换,电话和邮编采用正则匹配方式进行替换。实体词与槽位映射关系如表1.所示:表1实体名称

槽位对应表实体名称槽位省#PROVINCE{n...

【专利技术属性】
技术研发人员:薛鹏于红建邸岩兴
申请(专利权)人:北京同城必应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1