文本标准化处理方法、装置、设备及介质制造方法及图纸

技术编号:38685942 阅读:8 留言:0更新日期:2023-09-02 22:58
本发明专利技术公开了文本标准化处理方法、装置、设备及介质,涉及数据处理技术领域,该方法包括:获取待处理文本;对所述待处理文本进行文本解析处理,得到结构数据集;基于所述结构数据集,对所述待处理文本进行文本识别处理,得到标准题录信息;对所述待处理文本进行标准关系提取处理,得到标准间关系;对所述待处理文本进行标准术语提取处理,得到标准术语;将所述结构数据集、所述标准题录信息、所述标准间关系和所述标准术语存储至标准数据库中,以基于所述标准数据库进行数据处理。该方案无需依赖人工经验,能够自动对待处理文本进行解析处理,精准地提取到结构数据集、标准题录信息、标准间关系和标准术语等信息,提高了标准结构化处理效率。处理效率。处理效率。

【技术实现步骤摘要】
文本标准化处理方法、装置、设备及介质


[0001]本专利技术涉及数据处理
,尤其涉及文本标准化处理方法、装置、设备及介质。

技术介绍

[0002]随着信息技术的快速发展,文本标准化作为自然语言处理的重要环节,已经越来越多地应用到文本数据处理当中。其中,标准作为共同遵守的准则和依据,是对重复性事物和概念所做的统一规定,它以科学、技术和实践经验的综合为基础。为了使得文本数据更为规范化,对文本数据进行标准化处理显得尤为重要。
[0003]目前,相关技术中对于传统标准文本是通过操作人员进行结构化处理,抽取标准条款、标准题录、标准间关系和标准术语,从而处理得到全文结构化的标准文本,然而该方案需要依赖大量的人工经验,费时费力,导致标准结构化处理效率较低。

技术实现思路

[0004]有鉴于此,本专利技术提供一种文本标准化处理方法、装置、设备及介质,至少部分解决现有技术中存在的问题。
[0005]根据本申请的另一方面,本申请实施例提供了一种文本标准化处理方法,该方法包括:获取待处理文本;对所述待处理文本进行文本解析处理,得到结构数据集;基于所述结构数据集,对所述待处理文本进行文本识别处理,得到标准题录信息;对所述待处理文本进行标准关系提取处理,得到标准间关系;对所述待处理文本进行标准术语提取处理,得到标准术语;将所述结构数据集、所述标准题录信息、所述标准间关系和所述标准术语存储至标准数据库中,以进行数据处理。
[0006]在其中一个实施例中,对所述待处理文本进行文本解析处理,得到结构数据集,包括:对所述待处理文本进行特征标准类型识别处理,确定所述待处理文本的标准类型;对所述待处理文本进行时间信息识别处理,确定所述待处理文本的时间信息;所述时间信息包括年代信息和版型信息;基于所述待处理文本的标准类型和时间信息,对所述待处理文本进行标准要素识别和提取处理,得到标准要素;对所述标准类型、所述时间信息和所述标准要素进行处理得到结构数据集。
[0007]在其中一个实施例中,基于所述结构数据集,对所述待处理文本进行文本识别处理,得到标准题录信息,包括:
将所述待处理文本进行特征提取和文字检测处理,得到文本信息;基于所述结构数据集中的所述标准要素,所述标准类型和所述时间信息,识别标准题录信息的位置信息;基于所述位置信息,提取题录信息字段;将所述题录信息字段的格式和内容进行校验和修改处理,得到标准题录信息。
[0008]在其中一个实施例中,对所述待处理文本进行标准关系提取处理,得到标准间关系,包括:对所述待处理文本进行关系识别处理,获取标准关系;对所述标准关系进行提取处理,并基于所述标准关系构建标准间关系图谱;对所述标准间关系图谱进行分析处理,得到标准间关系。
[0009]在其中一个实施例中,对所述待处理文本进行标准术语提取处理,得到标准术语,包括:对所述待处理文本进行标准术语识别处理,确定标准术语要素和章节位置;根据所述标准术语要素和章节位置,对所述待处理文本进行抽取处理,得到标准术语。
[0010]在其中一个实施例中,将所述结构数据集、所述标准题录信息、所述标准间关系和所述标准术语存储至标准数据库中,以进行数据处理,包括:获取新标准和与所述新标准对应的新内容;在所述标准数据库中根据标准题录信息查找原标准;基于所述原标准,获取与所述原标准对应的待修改内容;基于所述新标准,将所述原标准中的待修改内容修改为新内容。
[0011]在其中一个实施例中,所述标准题录信息包括以下任意一项:分类信息、发布结构、发布实施日期、提出归口单位、起草单元、起草人;所述标准间关系包括以下任意一项:代替关系、引用关系和采用关系;所述标准术语包括以下任意一项:术语名称、术语定义、术语所在的标准信息、适用范围、术语注释、术语符号、术语图例。
[0012]根据本申请的另一方面,本申请实施例提供了一种文本标准化处理装置,该装置包括:获取模块,用于获取待处理文本;解析模块,用于对所述待处理文本进行文本解析处理,得到结构数据集;题录信息识别模块,用于基于所述结构数据集,对所述待处理文本进行文本识别处理,得到标准题录信息;标准间关系提取模块,用于对所述待处理文本进行标准关系提取处理,得到标准间关系;标准术语提取模块,用于对所述待处理文本进行标准术语提取处理,得到标准术语;处理模块,用于将所述结构数据集、所述标准题录信息、所述标准间关系和所述标准术语存储至标准数据库中,以基于所述标准数据库进行数据处理。
[0013]根据本申请的另一方面,本申请实施例提供了一种计算机设备,包括存储器、处理
器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如上述的文本标准化处理方法。
[0014]根据本申请的另一方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序用于实现如上述的文本标准化处理方法。
[0015]本申请实施例中提供的文本标准化处理方法、装置、设备及介质,通过获取待处理文本,并对待处理文本进行文本解析处理,得到结构数据集,基于结构数据集,对待处理文本进行文本识别处理,得到标准题录信息,并对待处理文本进行标准关系提取处理,得到标准间关系,然后对待处理文本进行标准术语提取处理,得到标准术语,并将结构数据集、标准题录信息、标准间关系和标准术语存储至标准数据库中,以进行数据处理。该技术方案无需依赖人工经验,能够自动对待处理文本进行解析处理,从而精准地提取到结构数据集、标准题录信息、标准间关系和标准术语等信息,并存储至数据库中,以会根据标准数据库进行数据处理,减少了人工干预和时间成本,提高了标准结构化处理效率和实施效果,极大地降低了标准的维护成本。
附图说明
[0016]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0017]图1为本申请实施例提供的文本标准化处理方法的系统架构图;图2为本申请实施例提供的文本标准化处理方法的流程示意图;图3为本申请实施例提供的对待处理文本进行文本解析处理得到结构数据集方法的过程示意图;图4为本申请实施例提供的文本标准化处理装置的结构示意图;图5为本申请实施例示提供的一种计算机设备的结构示意图。
具体实施方式
[0018]下面结合附图对本专利技术实施例进行详细描述。
[0019]需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合;并且,基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
[0020]需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本公开,所属领域的技术人员应了解,本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本标准化处理方法,其特征在于,该方法包括:获取待处理文本;对所述待处理文本进行文本解析处理,得到结构数据集;基于所述结构数据集,对所述待处理文本进行文本识别处理,得到标准题录信息;对所述待处理文本进行标准关系提取处理,得到标准间关系;对所述待处理文本进行标准术语提取处理,得到标准术语;将所述结构数据集、所述标准题录信息、所述标准间关系和所述标准术语存储至标准数据库中,以基于所述标准数据库进行数据处理。2.根据权利要求1所述的方法,其特征在于,对所述待处理文本进行文本解析处理,得到结构数据集,包括:对所述待处理文本进行特征标准类型识别处理,确定所述待处理文本的标准类型;对所述待处理文本进行时间信息识别处理,确定所述待处理文本的时间信息;所述时间信息包括年代信息和版型信息;基于所述待处理文本的标准类型和时间信息,对所述待处理文本进行标准要素识别和提取处理,得到标准要素;对所述标准类型、所述时间信息和所述标准要素进行处理得到结构数据集。3.根据权利要求1所述的方法,其特征在于,基于所述结构数据集,对所述待处理文本进行文本识别处理,得到标准题录信息,包括:将所述待处理文本进行特征提取和文字检测处理,得到文本信息;基于所述结构数据集中的所述标准要素、所述标准类型和所述时间信息,识别标准题录信息的位置信息;基于所述位置信息,提取题录信息字段;将所述题录信息字段的格式和内容进行校验和修改处理,得到标准题录信息。4.根据权利要求1所述的方法,其特征在于,对所述待处理文本进行标准关系提取处理,得到标准间关系,包括:对所述待处理文本进行关系识别处理,获取标准关系;对所述标准关系进行提取处理,并基于所述标准关系构建标准间关系图谱;对所述标准间关系图谱进行分析处理,得到标准间关系。5.根据权利要求1所述的方法,其特征在于,对所述待处理文本进行标准术语提取处理,得到标准术语,包括:对所述待处理文本进行标准术语识别处理,确定标准术语要素和章节位置...

【专利技术属性】
技术研发人员:崔静吕千千孔庆炜王立玺安淑荻王一禾魏梅胡晨高艳炫
申请(专利权)人:北京赛西科技发展有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1