结合AI和RPA的武器装备文本处理方法、装置及电子设备制造方法及图纸

技术编号:32357107 阅读:22 留言:0更新日期:2022-02-20 03:18
本公开提出了一种结合AI和RPA的武器装备文本处理方法、装置及电子设备,涉及AI和RPA领域,其中,方法包括:基于RPA机器人或IP代理,获取武器装备文本的集合;对集合中的武器装备文本进行类型识别;在类型为键值对文本的情况下,将预设的自然语言问题和键值对文本输入阅读理解模型,以从键值对文本中确定自然语言问题对应的答案文本,以及自然语言问题和键值对文本之间的语义相关性;在自然语言问题和键值对文本语义相关的情况下,根据答案文本和自然语言问题中的属性词,确定武器装备的结构化数据。由此,提高了武器装备文本获取的自动化程度,实现了从统一格式的武器装备文本中准确地生成结构化数据,提高了知识图谱构建的准确性和效率。和效率。和效率。

【技术实现步骤摘要】
结合AI和RPA的武器装备文本处理方法、装置及电子设备


[0001]本公开涉及人工智能(Artificial Intelligence,简称AI)和机器人流程自动化(Robotic Process Automation,简称RPA)
,尤其涉及一种结合AI和RPA的武器装备文本处理方法、装置及电子设备。

技术介绍

[0002]机器人流程自动化(Robotic Process Automation,RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
[0003]人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
[0004]目前,为了构建武器装备的知识图谱,需从开源的武器装备文本中获取武器装备的结构化数据,根据结构化数据进行知识图谱构建。
[0005]相关技术中,需人工参与获取武器装备的结构化数据,并且,由于数据源的多样性,获取的武器装备数据质量参差不齐,人工对海量数据进行筛选处理,以保本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合人工智能AI和机器人流程自动化RPA的武器装备文本处理方法,其特征在于,包括以下步骤:基于RPA机器人或网际互联协议IP代理,获取武器装备文本的集合;对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型;在所述类型为键值对文本的情况下,将预设的自然语言问题和所述键值对文本输入阅读理解模型,以从所述键值对文本中确定所述自然语言问题对应的答案文本,以及所述自然语言问题和所述键值对文本之间的语义相关性;在所述自然语言问题和所述键值对文本语义相关的情况下,根据所述答案文本和所述自然语言问题中的属性词,确定武器装备的结构化数据。2.根据权利要求1所述的方法,其特征在于,所述对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型之后,还包括:在所述类型为文章文本的情况下,将所述文章文本输入实体关系抽取模型,以从所述文章文本中抽取得到主体、属性和客体的三元组信息,以及对所述主体和客体标注的标签;在所述主体和所述客体中至少一个标注的标签指示为武器装备实体的情况下,根据所述三元组信息生成武器装备的结构化数据。3.根据权利要求2所述的方法,其特征在于,所述在所述主体和客体中至少一个标注的标签指示为武器装备实体的情况下,根据所述三元组信息生成武器装备的结构化数据,包括:所述在所述主体和客体中至少一个标注的标签指示为武器装备实体的情况下,将所述三元组信息中的属性与设定的标准属性进行语义匹配;在语义匹配的情况下,将所述标准属性,与所述主体和/或所述客体组合得到所述武器装备的结构化数据。4.根据权利要求1所述的方法,其特征在于,所述对所述集合中的武器装备文本进行类型识别,以确定所述武器装备文本的类型之后,还包括:在所述类型为表格文本的情况下,对所述表格文本所在的原始页面进行图像分割得到表格区域;对所述表格区域进行表格框线识别和校正,以确定所述表格区域中的表格框线;根据所述表格框线,将所述表格区域划分为多个单元格;根据所述多个单元格之间的位置关系,确定存在键值关系的单元格组合;对同一单元格组合中的各单元格进行光学字符识别OCR识别,以确定存在键值关系的文本;根据存在键值关系的文本,确定武器装备的结构化数据。5.根据权利要求1

4任一项所述的方法,其特征在于,所述基于RPA机器人或网际互联协议IP代理获取武器装备文本的集合,包括:根据设定的网络地址,访问所述网络地址对应的内容页面,以从所述内容页面中获取所述武器装备文本;根据获取的武器装备文本,生成所述集合。6.根据权利要求5所述的方法,其特征在于,所述根据获取的武器装备文本,生成所述集合之后,还包括:
对所述武器装备文本进行武器装备的命名实体识别,以确定所述武器装备文本中的武器装备实体;根据所述武器装备实体,生成搜索词;通过搜索引擎搜索所述搜索词,以得到多个相关页面;将所述相关页面中的文本作为武器装备文本,添加至所述集合中。7.根据权利要求6所述的方法,其特征在于,所述对所述武器装备文本进行武器装备的命名实体识别,以确定所述武器装备文本中的武器装备实体,包括:将所述武器装备文本输入实体关系抽取模型,以从所述文章文本中抽取得到主体、属性和客体的三元组信息,以及对所述主体和客体标注的标签;根据所述标签的指示,将所述主体和/或所述客体作为所述武器装备实体。8.根据权利要求5所述的方法,其特征在于,所述根据设定的网络地址,访问所述网络地址对应的内容页面,以从所述内容页面中获取所述武器装备文本,包括:从IP地址池中随机选取目标IP;根据设定的网络地址,生成访问请求;将所述目标IP作为代理,向所述网络地址对应的目标网站发送所述访问请求,以访问所述目标网站中的内容页面得到所述武器装备文本。9.根据权利要求5所述的方法,其特征在于,所述根据设定的网络地址,访问所述网络地址...

【专利技术属性】
技术研发人员:段沛宸张晓庆汪冠春胡一川褚瑞李玮
申请(专利权)人:来也科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1