【技术实现步骤摘要】
基于RPA和AI的商品信息处理方法、装置、设备和介质
[0001]本公开涉及人工智能(Artificial Intelligence,简称AI)和机器人流程自动化(Robotic Process Automation,简称RPA)领域,尤其涉及一种基于RPA和AI的商品信息处理方法、装置、设备和介质。
技术介绍
[0002]RPA是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
[0003]AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
[0004]智能文档处理(Intelligent Document Processing,简称IDP)是基于光学字符识别(Optical Character Recognition,简称OCR)、计算机视觉(Computer Vision,简称CV)、自然语言处理(Natural Language Processing,简称NLP)、知识图谱(Knowledge Graph,简称KG)等人工智能技术,对各类 ...
【技术保护点】
【技术特征摘要】
1.一种基于机器人流程自动化RPA和人工智能AI的商品信息处理方法,其特征在于,所述方法由RPA机器人执行,包括:获取目标商品对应的商品包装图,并基于光学字符识别OCR技术,识别所述商品包装图中的文本内容;获取参考文档,并获取所述参考文档中的文档内容,其中,所述文档内容中包括所述目标商品对应的商品信息;对所述文本内容和所述文档内容进行比对,以确定所述文本内容中不同于所述文档内容中的第一差异部分;在所述文本内容中对所述第一差异部分进行异常标注,和/或,在所述商品包装图中对所述第一差异部分所处的区域进行异常标注。2.根据权利要求1所述的方法,其特征在于,所述对所述文本内容和所述文档内容进行比对,以确定所述文本内容中不同于所述文档内容中的第一差异部分,包括:从所述文本内容中提取各第一属性字段,并从所述文本内容中提取与各所述第一属性字段匹配的第一属性值;将各所述第一属性字段和各所述第一属性字段对应的第一属性值,与所述文档内容中的各第二属性字段和各所述第二属性字段对应的第二属性值进行比对;在各所述第一属性字段中存在第一目标属性字段与所述第二属性字段不匹配的情况下,将所述第一目标属性字段和/或所述第一目标属性字段对应的第一属性值,作为所述第一差异部分;在各所述第一属性字段中存在第二目标属性字段与所述第二属性字段匹配,但所述第二目标属性字段对应的第一属性值与所述第二属性字段对应的第二属性值不匹配的情况下,将所述第二目标属性字段对应的第一属性值,作为所述第一差异部分。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:获取设定词表,其中,所述设定词表中包括至少一个第三属性字段;从所述文本内容中提取与所述设定词表中各所述第三属性字段匹配的第三属性值;将各所述第三属性字段对应的第三属性值,与所述文档内容中的各所述第二属性字段对应的第二属性值进行比对;在各所述第三属性值中存在目标属性值与所述第二属性值不匹配的情况下,将所述目标属性值,作为所述第一差异部分。4.根据权利要求1所述的方法,其特征在于,所述对所述文本内容和所述文档内容进行比对,以确定所述文本内容中不同于所述文档内容中的第一差异部分,包括:从所述文本内容中提取所述目标商品的第一营养成分信息,并从所述文档内容中提取第二营养成分信息;将所述第一营养成分信息中的各成分信息与所述第二营养成分信息中对应成分信息进行比对;在第一营养成分信息中存在目标成分信息与所述第二营养成分信息中对应成分信息不匹配的情况下,将所述目标成分信息作为所述第一差异部分。5.根据权利要求1所述的方法,其特征在于,所述文本内容中包括所述目标商品的第一营养成分信息,所述基于光学字符识别OCR技术,识别所述商品包装图中的文本内容之后,
所述方法还包括:从所述文本内容中提取所述第一营养成分信息;针对所述第一营养成分信息中任一成分信息,获取与所述任一成分信息匹配的正则表达式;将所述正则表达式与所述任一成分信息进行匹配;若不匹配,则基于所述正则表达式,对所述任一成分信息进行替换处理。6.根据权利要求1所述的方法,其特征在于,所述文本内容中包括所述目标商品的第一营养成分信息,所述基于光学字符识别OCR技术,识别所述商品包装图中的文本内容之后,所述方法还包括:从所述文本内容中提取所述第一营养成分信息;针对所述第一营养成分信息中的任一文本片段,判断所述任一文本片段的语义是否完整;如果所述任一文本片段的语义不完整,则从所述营养成分信息中获取与所述任一文本片段相邻的邻接文本片段;如果所述邻接文本片段的语义不完整,则从所述邻接文本片段中确定语义完整的子片段;提取所述邻接文本片段中除所述子片段之外的其他字符,并将所述其他字符归入所述任一文本片段,以及将所述其他字符从所述邻接文本片段中剔除。7.根据权利要求1
‑
6中任一项所述的方法,其特征在于,所述获取目标商品对应的商品包装图,包括:获取包含所述商品包装图的目标文档;从所述目标文档中提取所述商品包装图。8.根据权利要求1
‑
6中任一项所述的方法,其特征在于,所述基于光学字符识别OCR技术,识别所述商品包装图中的文本内容,包括:响应于截取操作,将所述商品包装图切分为至少一个子图像;基于所述OCR技术,对所述至少一个子图像进行字符识别,以得到所述文本内容。9.根据权利要求1
‑
6中任一项所述的方法,其特征在于,所述基于光学字符识别OCR技术,识别所述商品包装图中的文本内容,包括:基于目标检测算法,从所述商品包装图中识别并提取至少一...
【专利技术属性】
技术研发人员:陈愫恺,
申请(专利权)人:来也科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。