信息提取方法、装置、设备和存储介质制造方法及图纸

技术编号:32584122 阅读:24 留言:0更新日期:2022-03-09 17:16
本申请提供一种信息提取方法、装置、设备和存储介质,该方法包括:获取查询指令对应的订单数据;将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;基于所述校验后的标的物信息生成所述订单数据的三元组信息。本申请同时结合了人工智能模型识别和标准词库规则校验对订单信息进行提取,提高提取精度。提高提取精度。提高提取精度。

【技术实现步骤摘要】
信息提取方法、装置、设备和存储介质


[0001]本申请涉及信息处理
,具体而言,涉及一种信息提取方法、装置、设备和存储介质。

技术介绍

[0002]随着互联网技术的发展,越来越多的商品由线上订单进行采购,比如通过邮件传递订货信息,比如当用户在一个平台下单订购一批商品后,该订单信息被通过邮件来传递。
[0003]订单信息中的商品信息和到货日期是非常重要的商品数据,当用户想要查看邮件中相关商品的商品信息和到货日期时,往往需要打开邮件人工进行查找,对于用户来说很不方便。因此邮件内容的信息自动提取技术应运而生。
[0004]在现有的邮件提取方法中,主要是通过编写规则等的方式进行信息的提取,但是提取的信息具有局限性,精度不高,由于邮件内容具有多样性,不能满足对任意形式的信息提取,因此如何提高邮件内容信息的提取精度成为一个亟待解决的问题。

技术实现思路

[0005]本申请实施例的目的在于提供一种信息提取方法、装置、设备和存储介质,同时结合了模型识别和标准词库规则校验对订单信息进行提取,提高提取精度。
[0006本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息提取方法,其特征在于,包括:获取查询指令对应的订单数据;将所述订单数据输入至预设识别模型,输出所述订单数据中的标的物信息;基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息;基于所述校验后的标的物信息生成所述订单数据的三元组信息。2.根据权利要求1所述的方法,其特征在于,所述查询指令中携带有目标订单的标识信息;所述获取查询指令对应的订单数据,包括:在接收到查询指令时,在预设订单库中抽取所述标识信息对应的订单内容;对所述订单内容进行内容解析,得到所述目标订单的文本数据,将所述文本数据作为所述订单数据。3.根据权利要求1所述的方法,其特征在于,建立所述预设识别模型的步骤包括:获取样本订单数据集;将所述样本订单数据集转换为预定标准格式;对标准格式的所述样本订单数据集中的样品标的物信息进行标注;采用标注后的所述样本订单数据集训练神经网络模型,得到所述预设识别模型。4.根据权利要求1所述的方法,其特征在于,所述标的物信息中包括:标的物标识文本和所述标识文本在所述订单数据中的文本位置;所述基于标准词库对所述标的物信息进行校验处理,得到校验后的标的物信息,包括:判断所述标准词库中是否存在与所述标识文本相同的目标标准数据;当所述标准词库中不存在所述目标标准数据时,基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息。5.根据权利要求4所述的方法,其特征在于,在所述判断所述标准词库中是否存在与所述标识文本相同的目标标准数据之前,还包括:检测所述标识文本边界处的字符信息,将所述标识文本边界处的非文本符号删除,得到校正后的标识文本。6.根据权利要求4所述的方法,其特征在于,所述基于所述文本位置对所述标识文本做校正处理,得到所述校验后的标的物信息,包括:当所述标准词库中不存在所述目标标准数据时,从所述标准词库中选取出与所述标识文本之间的相似度大于预设阈值的目标候选数...

【专利技术属性】
技术研发人员:简仁贤李梦雄马永宁王海波
申请(专利权)人:竹间智能科技上海有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1