一种文档语义信息的处理方法、系统、装置及介质制造方法及图纸

技术编号:38099289 阅读:10 留言:0更新日期:2023-07-06 09:16
本申请公开了一种文档语义信息的处理方法、系统、装置及介质。该处理方法通过获取待解析的信息文档,并对所述信息文档进行解析后获得所述信息文档内的所有可度量数量信息单元;分别将各个所述可度量数量信息单元映射到RGB通道,获得各个所述可度量数量信息单元的映射颜色;根据所有所述可度量数量信息单元的映射颜色建立映射颜色图像;根据所述映射颜色图像执行相应的处理任务。该处理方法通过将颜色计算和可度量数量信息的语义计算进行结合,避免了一定程度上的整体语义信息缺失,能够较好地表征可度量数量信息这一整体的语义信息,对语义信息处理起到了一定的帮助。本申请可广泛应用于文档信息技术领域内。用于文档信息技术领域内。用于文档信息技术领域内。

【技术实现步骤摘要】
一种文档语义信息的处理方法、系统、装置及介质


[0001]本申请涉及文档信息
,尤其是一种文档语义信息的处理方法、系统、装置及介质。

技术介绍

[0002]近年来,随着大数据、人工智能等技术的发展,文档信息的处理有了新的发展方向,人们开始利用将大数据、人工智能等技术应用于文档信息的处理中。其中,利用这些新兴技术提取文档中蕴含的语义信息并进行语义计算能够极大地方便人们对文档信息的处理而备受关注。
[0003]目前,在自然语言处理领域中对文档的可度量数量信息集合进行处理的时候,,通常都是将可度量数量信息集合拆成四个部分(即实体、数值、单位和比较关系)再分别进行比对的方式来处理,这种解耦的方式虽然能够很好的结合成熟的技术方案比如知识图谱、强化学习等,但这种处理方式在一定程度上散失了可度量数量信息本身作为一个整体所表示的语义信息,无法较好地表征可度量数量信息这个整体的语义信息,不利于后续的语义信息处理。
[0004]因此,现有技术存在的问题还亟需解决和优化。

技术实现思路

[0005]本申请的目的在于至少一定程度上解决相关技术中存在的技术问题之一。
[0006]为此,本申请实施例的一个目的在于提供一种文档语义信息的处理方法,该处理方法通过将颜色计算和可度量数量信息的语义计算进行结合,避免了一定程度上的整体语义信息缺失,能够较好地融合并表征可度量数量信息这一整体的语义信息,对语义信息处理起到了一定的帮助。
[0007]本申请实施例的另一个目的在于提供一种文档语义信息的处理系统。
[0008]为了达到上述技术目的,本申请实施例所采取的技术方案包括:
[0009]第一方面,本申请实施例提供了一种文档语义信息的处理方法,包括:
[0010]获取待解析的信息文档,并对所述信息文档进行解析后获得所述信息文档内的所有可度量数量信息单元;
[0011]分别将各个所述可度量数量信息单元映射到RGB通道,获得各个所述可度量数量信息单元的映射颜色;
[0012]根据所有所述可度量数量信息单元的映射颜色建立映射颜色图像;
[0013]根据所述映射颜色图像执行相应的处理任务。
[0014]另外,根据本申请上述实施例的处理方法,还可以具有以下附加的技术特征:
[0015]进一步地,在本申请的一个实施例中,所述对所述信息文档进行解析后获得所述信息文档内的所有可度量数量信息单元,包括:
[0016]解析所述信息文档的可度量数量信息,获得所有可度量数量信息集合;
[0017]根据各个所述可度量数量信息集合分别构建对应的可度量数量信息单元,其中,所述可度量数量信息单元包括数值信息、实体语义和比较关系,所述数值信息包括数值与单位。
[0018]进一步地,在本申请的一个实施例中,将所述可度量数量信息单元映射到RGB通道,获得所述可度量数量信息单元的映射颜色,包括:
[0019]将所述实体语义映射到所述RGB通道中的R通道,并获取所述实体语义在所述R通道的R映射值;
[0020]将所述数值信息映射到所述RGB通道中的G通道,并获取所述数值信息映射到所述G通道的G映射值;
[0021]将所述比较关系映射到所述RGB通道中的B通道,并获取所述比较关系映射到所述B通道的B映射值;
[0022]根据获取到得所述R映射值、所述G映射值和所述B映射值确定所述可度量数量信息单元的映射颜色。
[0023]进一步地,在本申请的一个实施例中,所述根据所述映射颜色图像执行相应的处理任务,包括:
[0024]根据所述映射颜色图像确定第一可度量数量信息单元的第一映射颜色图像以及第二可度量数量信息单元的第二映射颜色图像;
[0025]将所述第一映射颜色图像与所述第二映射颜色图像进行颜色叠加处理并获得叠加映射颜色图像;
[0026]将所述叠加映射颜色图像依次进行灰度处理和二值化处理后获得二值图像;
[0027]根据所述二值图像确定所述第一可度量数量信息单元与所述第二可度量数量信息单元的相似度。
[0028]进一步地,在本申请的一个实施例中,所述将所述叠加映射颜色图像依次进行灰度处理和二值化处理后获得二值图像,包括:
[0029]获取用户设定的二值化阈值;
[0030]将所述叠加映射颜色图像进行所述灰度处理得到灰度图像,根据所述二值化阈值对灰度图像进行所述二值化处理后获得所述二值图像;
[0031]其中,当所述灰度图像的灰度值大于所述二值化阈值时,所述二值图像的灰度值为255,当所述灰度图像的灰度值小于等于所述二值化阈值时,所述二值图像的灰度值为0。
[0032]进一步地,在本申请的一个实施例中,所述根据所述映射颜色图像执行相应的处理任务,包括:
[0033]根据所述映射颜色图像确定所有所述可度量数量信息单元的映射颜色;
[0034]获取用户设定的映射颜色与领域之间的对应规则;
[0035]根据经过所述对应规则训练的机器学习算法以及所述可度量数量信息单元的映射颜色对所述可度量数量信息单元进行领域分类。
[0036]进一步地,在本申请的一个实施例中,所述根据所述映射颜色图像执行相应的处理任务,包括:
[0037]根据所述映射颜色图像确定各个所述可度量数量信息单元所在的映射颜色聚簇块;
[0038]根据对各个所述映射颜色聚簇块进行噪点分析和/或离散点分析实现所述可度量数量信息单元的错误检测。
[0039]第二方面,本申请实施例提供了一种文档语义信息的处理系统,包括:
[0040]获取模块,用于获取待解析的信息文档,并对所述信息文档进行解析后获得所述信息文档内的所有可度量数量信息单元;
[0041]映射模块,用于分别将各个所述可度量数量信息单元映射到RGB通道,获得各个所述可度量数量信息单元的映射颜色;
[0042]建立模块,用于根据所有所述可度量数量信息单元的映射颜色建立映射颜色图像;
[0043]处理模块,用于根据所述映射颜色图像执行相应的处理任务。
[0044]第三方面,本申请实施例还提供了一种文档语义信息的处理装置,包括:
[0045]至少一个处理器;
[0046]至少一个存储器,用于存储至少一个程序;
[0047]当所述至少一个程序被所述至少一个处理器执行时,使得所述至少一个处理器实现上述第一方面的一种文档语义信息的处理方法。
[0048]第四方面,本申请实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于实现上述第一方面的一种文档语义信息的处理方法。
[0049]本申请的优点和有益效果将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到:
[0050]本申请实施例所公开的一种文档语义信息的处理方法、系统、装置及介质,通过获取待解析的信息文档,并对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文档语义信息的处理方法,其特征在于,包括:获取待解析的信息文档,并对所述信息文档进行解析后获得所述信息文档内的所有可度量数量信息单元;分别将各个所述可度量数量信息单元映射到RGB通道,获得各个所述可度量数量信息单元的映射颜色;根据所有所述可度量数量信息单元的映射颜色建立映射颜色图像;根据所述映射颜色图像执行相应的处理任务。2.根据权利要求1所述的处理方法,其特征在于,所述对所述信息文档进行解析后获得所述信息文档内的所有可度量数量信息单元,包括:解析所述信息文档的可度量数量信息,获得所有可度量数量信息集合;根据各个所述可度量数量信息集合分别构建对应的可度量数量信息单元,其中,所述可度量数量信息单元包括数值信息、实体语义和比较关系,所述数值信息包括数值与单位。3.根据权利要求2所述的处理方法,其特征在于,将所述可度量数量信息单元映射到RGB通道,获得所述可度量数量信息单元的映射颜色,包括:将所述实体语义映射到所述RGB通道中的R通道,并获取所述实体语义在所述R通道的R映射值;将所述数值信息映射到所述RGB通道中的G通道,并获取所述数值信息映射到所述G通道的G映射值;将所述比较关系映射到所述RGB通道中的B通道,并获取所述比较关系映射到所述B通道的B映射值;根据获取到得所述R映射值、所述G映射值和所述B映射值确定所述可度量数量信息单元的映射颜色。4.根据权利要求3所述的处理方法,其特征在于,所述根据所述映射颜色图像执行相应的处理任务,包括:根据所述映射颜色图像确定第一可度量数量信息单元的第一映射颜色图像以及第二可度量数量信息单元的第二映射颜色图像;将所述第一映射颜色图像与所述第二映射颜色图像进行颜色叠加处理并获得叠加映射颜色图像;将所述叠加映射颜色图像依次进行灰度处理和二值化处理后获得二值图像;根据所述二值图像确定所述第一可度量数量信息单元与所述第二可度量数量信息单元的相似度。5.根据权利要求4所述的处理方法,其特征在于,所述将所述叠加映射颜色图像依次进行灰度处理和二值化处理后获得二值图像,包括:获取...

【专利技术属性】
技术研发人员:郝天永黄邦锐莫迪王海涛曹馨宇
申请(专利权)人:华南师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1