一种基于AI技术的信息抽取方法、装置和存储介质制造方法及图纸

技术编号:27845195 阅读:33 留言:0更新日期:2021-03-30 12:48
本文公开了一种基于人工智能AI技术的信息抽取方法、装置和存储介质。其中,所述方法包括,对目标文件进行语义切割,得到切割后的多个文本单元;根据所述多个文本单元,利用预先训练好的命名实体识别模块识别出实体,并利用预先训练好的关系分类模型抽取实体之间的关系;利用预先训练好的机器阅读理解模型,对所识别出的实体和所抽取的实体之间的关系进行校验;根据校验后的实体和实体之间的关系,确定所述目标文件对应的结构化信息。定所述目标文件对应的结构化信息。定所述目标文件对应的结构化信息。

【技术实现步骤摘要】
一种基于AI技术的信息抽取方法、装置和存储介质


[0001]本公开涉及但不限于人工智能、文档结构化处理领域,尤其涉及一种基于AI技术的信息抽取方法、装置和存储介质。

技术介绍

[0002]结构化信息抽取技术被各行各业所需要,对目标数据(文件)进行进行抽取形成结构化数据,才能更有效地进行后续的信息加工、处理或分析。以招投标领域为例,针对招投标文件的信息抽取,目前主流的方法仍是根据正则匹配进行提取。其实现方式是通过分析招投标文件,定义一些诸如项目名称、项目编号、采购类型等触发词,以及电话、日期等模式,结合正则表达式进行文件内容的匹配,进而得到对应的字段信息,以实现对招投标文件的结构化信息的抽取。
[0003]近些年,随着知识图谱等技术的兴起,也有一些相结合的案例。其实现方式一般是通过先构建一个招投标领域知识图谱,然后基于图谱,计算招投标文件与图谱的匹配程度,通过卡阈值得到相应字段的信息,以实现对招投标文件的结构化信息的抽取。

技术实现思路

[0004]以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于AI技术的信息抽取方法,其特征在于,包括,对目标文件进行语义切割,得到切割后的多个文本单元;根据所述多个文本单元,利用预先训练好的命名实体识别模块识别出实体,并利用预先训练好的关系分类模型抽取实体之间的关系;利用预先训练好的机器阅读理解模型,对所识别出的实体和所抽取的实体之间的关系进行校验;根据校验后的实体和实体之间的关系,确定所述目标文件对应的结构化信息。2.根据权利要求1所述的方法,其特征在于,所述对目标文件进行语义切割,得到切割后的多个文本单元,包括:获取所述目标文件中的文本内容,根据语义分割模型对所述文本内容进行切割,得到切割后的所述多个文本单元。3.根据权利要求2所述的方法,其特征在于,所述目标文件包括:网页文件;所述获取所述目标文件中的文本内容,包括:根据所述网页文件构建网页文档对象模型DOM树;根据所述目标文件所属的类型对应的词典和预设的文本块分割算法,识别所述网页DOM树中的正文区域;识别所述正文区域中包含的文本,并根据预设的格式转换为所述文本内容。4.根据权利要求3所述的方法,其特征在于,所述预设的格式至少包括以下之一:表格内文本拼接格式、表格与非表格文本拼接格式、表格间文本拼接格式;所述识别所述正文区域中包含的文本,并根据预设的格式转换为所述文本内容,包括:根据预设的表格分类模型,从所述正文区域中识别出表格区域和非表格区域,并确定所述表格区域的表格类型;根据所述表格类型和预设的表格内文本拼接格式,将各表格区域中的文本转换为表格文本;根据所述预设的格式,将所述表格文本和非表格区域中的文本转换为所述文本内容。5.根据权利要求2、3或4所述的方法,其特征在于,所述语义分割模型为:根据预先标注的样本对BERT预训练语言模型进行微调得到的模型。6.根据权利要求1所述的方法,其特征在于,所述命名实体识别模型为基于深度学习的序列标注...

【专利技术属性】
技术研发人员:刘祥
申请(专利权)人:北京百炼智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1