结构化数据的提取方法、系统、设备及存储介质技术方案

技术编号:19745386 阅读:37 留言:0更新日期:2018-12-12 04:46
本发明专利技术实施例公开了一种结构化数据的提取方法、系统、设备及存储介质。所述方法包括:通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。本发明专利技术实施例可以根据用户的定制数据更新识别模型,降低规则定制难度以及规则修改难度,减少文本抽取和结构化的实现成本。

【技术实现步骤摘要】
结构化数据的提取方法、系统、设备及存储介质
本专利技术实施例涉及数据解析技术,尤其涉及一种结构化数据的提取方法、系统、设备及存储介质。
技术介绍
互联网中存在巨量非结构化文本数据,其中,非结构化文本数据是指不方便用数据库的二维逻辑表来表现的数据,这种数据往往蕴含着大量的信息和知识,但由于不好提取而很难被利用。如果能有效的整理成为结构化数据,典型是形成{属性名,属性值}这种的属性对结构化数据,则对各领域技术人员来说将是非常方便查找的,有巨大的利用价值。例如,非结构化文本为“本庭由XX市XX区XX法院副庭长用户A担任审判长,与审判员用户B、人民陪审员用户C组成合议庭,由审判员用户B主审本案,由本院书记员用户D担任法庭记录”。可以将该非结构化文本转换为结构化数据,具体如表1所示,由此可见,结构化数据可以便于快速查看和理解、进行精确的语义检索、且更容易被智能设备利用(如辅助诊断、辅助断案),从而能够极大提高数据的利用价值。表1结构化数据序号姓名角色是否为主审1用户A审判长否2用户B审判员是3用户C人民陪审员否4用户D书记员否现有技术从无结构化文本数据中提取结构化数据的方式,通常使用开放信息抽本文档来自技高网...

【技术保护点】
1.一种结构化数据的提取方法,其特征在于,包括:通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。

【技术特征摘要】
1.一种结构化数据的提取方法,其特征在于,包括:通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据;通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整;通过所述线下标注子系统,根据所述线下识别模型更新所述线上识别子系统的线上识别模型,其中,所述线上识别模型与所述线下识别模型对应。2.根据权利要求1所述的方法,其特征在于,所述线上识别模型包括至少两个识别子模型,则通过线上识别子系统,基于线上识别模型对输入文本进行识别,以输出结构化数据包括:通过所述线上识别子系统中的至少两个识别子模型分别对输入文本进行识别,以输出识别结果;通过所述线上识别子系统中的融合干预模块,对至少两个识别结果根据预设干预规则进行筛选过滤,并进行选择或融合。3.根据权利要求1所述的方法,其特征在于,通过线下标注子系统的定制接口获取用户的定制数据,根据所述定制数据对线下识别模型进行调整包括:通过线下标注子系统中与识别子模型对应的至少两个模型调整模块的接口,获取用户的定制数据,分别对所述识别子模型进行调整。4.根据权利要求3所述的方法,其特征在于,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:通过其他识别子模型对非结构化文本进行结构化语义标注,形成训练样本,提供给所述深度学习识别子模型。5.根据权利要求3所述的方法,其特征在于,所述识别子模型中包括至少一个深度学习识别子模型,对应的模型调整模块为深度学习训练模块,则根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:通过所述深度学习识别子模型对非结构化文本进行标注,以筛选出对所述深度学习识别子模型构成参数影响的非结构化文本;将筛选出的非结构化文本通过样本选择模块提供给用户,获取用户进行结构化语义标注的非结构化文本,提供给所述深度学习识别子模型。6.根据权利要求3所述的方法,其特征在于,所述线上识别模型的识别子模型包括:规则识别子模型和深度学习识别子模型。7.根据权利要求3-6任一所述的方法,其特征在于,所述线上识别子系统为实体识别子系统,所述识别子模型包括词典规则识别子模型和实体深度学习子模型,所述输入文本为非结构化文本。8.根据权利要求3-6任一所述的方法,其特征在于,所述线上识别子系统为关系识别子系统,所述识别子模型包括关系规则识别子模型、关系深度学习子模型和实体关系联合深度学习子模型,所述输入文本为非结构化文本和/或实体识别结果。9.根据权利要求8所述的方法,其特征在于,根据用户的定制数据,对深度学习识别子模型进行调整之前还包括:从知识库获取实体关系三元组,采用所述实体关系三元组对非结构化文本进行结构化语义标注,作为训练样本提供给所述关系深度学习子模型和实体关系联合深度学习子模型。10.根据权利要求3-6任一所述的方法,其特征在于,所述线上识别子系统为属性识别子系统,所述识别子模型包括属性规则识别子模型、属性深度学习子模型,所述输入文本为非结构化文本、实体识别结果和/或关系识别结果。11.根据权利要求10所述的方法,其特征在于,通过属性识别子系统,基于线上识别模型的识别子模型对输入文本进行识别,以输出结构化数据之前还包括:通过属性识别子系统的文档预处理模块对非结构化文本进行预处理;通过属性识别子系统的属性值定位模块,对非结构文本中的属性值进行初步定位。12.一种结构化数据的提取...

【专利技术属性】
技术研发人员:戴岱高原贾巍肖欣延吴甜
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1