一种基于大数据分析的文字识别释义系统技术方案

技术编号：41205935 阅读：2 留言：0更新日期：2024-05-07 22:32

本发明专利技术公开了一种基于大数据分析的文字识别释义系统，其技术方案要点是包括识别子系统、编排子系统和释义子系统，识别子系统用于获取记载文字的载体并形成扫描数据，编排子系统内配置有编排策略，编排策略包括获取扫描数据中的文物类型，获取属于相同类型的文物图像并进行归类形成归类数据，释义子系统包括组合模块、释义模块和文字库，文字库用于记载古文数据和释义内容，组合模块用于调取归类数据并对其中文物图像进行编排形成编排图像，释义模块用于获取编排图像并提取编排图像中的文本内容形成连串文本，对连串文本进行释义，以及识别连串文本中的缺损文字，将缺损文字与文字库匹配并填补缺损文字形成待译文本并对待译文本进行释义。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及古文字识别，更具体的说是涉及一种基于大数据分析的文字识别释义系统。

技术介绍

1、目前随着考古工作的发展对于很多出图的竹简、书画、印章、对联以及牌匾的文物，由于随着时间还所存地址的影响，造成文物上的文字会出现缺失或碳化，导致在发掘出文物后需要通过保存并运送至实验室中，经专家进行文字的提取和释义，以获取文物中记载的内容。随着科技的发展和对文物更好的保护，也有一些扫描设备对文物中的内容进行扫描并上传终端，使得专家能够通过终端快速的对文物中的文字进行识别释义。

2、现有公开号为cn113837186a的专利技术专利公开了一种基于卷积神经网络的东巴象形文字识别方法及装置。基于卷积神经网络的东巴象形文字识别方法包括：获取待识别图像，待识别图像中包括东巴象形文字；基于深度残差网络模型对待识别图像进行特征识别，得到东巴象形文字对应的文字释义，深度残差网络模型包括至少一个残差跳跃连接结构，残差跳跃连接结构包括多个相邻堆叠的卷积层。

3、上述现有技术中虽然公开了通过卷积神经网络对古文进行识别并释义的方法，这种方法虽然能够对古文进行释义，但是在对文字出现残缺或字段出现残缺时并不能很好的对古文字进行文字匹配和字段释义，对此一种通过大数据的分析对文字进行识别并释义的系统和终端设备亟待解决。

技术实现思路

1、针对现有技术存在的不足，本专利技术的目的在于提供一种基于大数据分析的文字识别释义系统，具有对文字进行识别并对缺失部分进行填补，以及对文字进行线上识别释义的效果。</p>

2、为实现上述目的，本专利技术提供了如下技术方案：

3、一种基于大数据分析的文字识别释义系统，包括：

4、识别子系统，所述识别子系统用于获取记载文字的载体并形成扫描数据，扫描数据包括文物图像和文物类型，所述文物图像表征扫描到的载体整体的图像以及记载于载体中的文字内容，所述文物类型表征记载文字内容的载体种类；

5、编排子系统，所述编排子系统内配置有编排策略，所述编排策略包括获取扫描数据中的文物类型，获取属于相同类型的文物图像并进行归类形成归类数据；

6、释义子系统，所述释义子系统包括组合模块、释义模块和文字库，所述文字库用于记载古文数据和释义内容，所述组合模块用于调取归类数据并对其中文物图像进行编排形成编排图像，所述释义模块用于获取编排图像并提取编排图像中的文本内容形成连串文本，对所述连串文本进行释义，以及识别连串文本中的缺损文字，将缺损文字与文字库匹配并填补缺损文字形成待译文本，并对待译文本进行释义。

7、作为本专利技术的进一步改进，所述编排编排策略包括识别逻辑，识别逻辑具体包括：

8、配置边缘图域，边缘区域设定为正方形的边框，将边缘图域拟合至文物图像的边缘区域，拟合边缘区域时，设定间隙阈值，间隙阈值表征设定边缘区域之间的距离值，基于边缘阈值沿文物图像的横向和纵向分别拟合若干边缘区域，提取文物图像中边缘区域内的区域特征，获取区域特征的物理特性，基于物理特性判断文物图像对应载体的文物类型。

9、作为本专利技术的进一步改进，所述识别逻辑还包括：

10、将边缘区域拟合至文物图像中时，识别边缘区域是否位于文物图像内；

11、若处于文物图像内，且边缘区域距文物图像边缘的间距小于间隙阈值时停止拟合边缘区域；

12、若识别区域存在部分超出文物图像，且超出部分小于间隙阈值时，将超出文物图像部分移动至与文物图像边缘对齐。

13、作为本专利技术的进一步改进，所述编排策略还包括编号逻辑，所述编号逻辑具体包括：

14、基于扫描数据中获得文物图像的先后顺序，对相同文物类型的文物图像依次进行编号形成编排图像，在编号时，还依次获取文物图像中文字的字体与古文数据进行匹配判断字体类型，将属于同种文物类型且字体类型相同的编排图像进行归类并依次编号形成归类数据。

15、作为本专利技术的进一步改进，所述编号逻辑还包括：

16、对归类数据进行打包形成归类包并对归类包进行命名，在命名时获取归类数据中带有编号的文物图像总张数，以及字体类型，将字体类型做为归类包命名的前缀，总张数做为字体类型的后缀。

17、作为本专利技术的进一步改进，所述组合模块内配置有组合策略，所述组合策略包括调取归类数据并提取归类数据中的文物图像，对文物图像进行编号形成带有标号的编排图像；

18、所述释义模块内配置有连串释义策略和损失释义策略，所述连串释义策略用于获取同一归类数据中的编排图像，提取编排图像的首段内容和末段内容并释义，关联编排图像并进行排序形成连串文本，所述损失释义策略包括调取连串文本，识别连串文本中是否出现缺损文字，获取缺损文字并调用文字库中存储的古文数据进行匹配，以填补缺损文字形成待译文本，调取文字库中的释义内容，根据对应古文数据对应的释义内容对待译文本进行释义。

19、作为本专利技术的进一步改进，所述连串释义策略包括组合逻辑和匹配逻辑，所述组合逻辑包括提取编排图像的首段内容和末端内容，根据提取到的字段结合古文字体和释义内容形成释义语段，基于释义语段对编排图像进行语句排序，形成连串文本的编排图像；

20、所述匹配逻辑内配置有语义匹配算法，基于所述语义匹配算法对释义后的连串文本与古文数据进行匹配，判断释义的准确度。

21、作为本专利技术的进一步改进，所述语义匹配算法具体为，将释义的字段向量组成一个语义矩阵，该矩阵是一个多维向量，采用余弦相似度方式计算释义字段语义矩阵a＝[a1，a2，…，an]，古文数据的释义矩阵b＝[b1，b2，…，bn]的相似度，计算公式如下：

22、

23、其中，s(a，b)表示字段语义矩阵a和释义矩阵b之间的余弦相似度，n为bert模型的输出维度；

24、释义要素实际上有关古文字体种类的词汇，通过判断释义字体是否属于同一种类从而进行相似度匹配，通过编辑距离算法来评估释义种类相同层级间的释义要素之间的相似程度，编辑距离算法公式如下：

25、

26、其中，s(s1，s2)表示编辑距离相似度，m为代表目标释义要素字符串，n为数据库释义要素字符串，f(m，n)为m转换为n所需的步骤数，max(|s1|，|s2|)表示s1和s2中较长字符串的字符数。

27、作为本专利技术的进一步改进，所述对释义字段和释义要素的相似度进行加权求和：

28、s＝αs(a，b)+βs(s1，s2)

29、其中，α为释义字段的相似度权重系数，β为释义要素的相似度权重系数。

30、其次，对于释义字段在相同的区间范围内则具有相似度，释义要素接近相似度就越高，在计算释义字段相似度的时候采用余弦相似度进行计算，将释义要素拆分成一个长度为2的向量，a＝(x1，x2)和b＝(y1，y2)，计算公式如下：

31、

32、其中，cos(θ)表示计算出的余弦相似度，a＝(x1，x2)为将释义字段要素表达本文档来自技高网...

【技术保护点】

1.一种基于大数据分析的文字识别释义系统，其特征在于，包括：

2.根据权利要求1所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述编排编排策略包括识别逻辑，识别逻辑具体包括：

3.根据权利要求2所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述识别逻辑还包括：

4.根据权利要求3所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述编排策略还包括编号逻辑，所述编号逻辑具体包括：

5.根据权利要求4所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述编号逻辑还包括：

6.根据权利要求5所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述组合模块内配置有组合策略，所述组合策略包括调取归类数据并提取归类数据中的文物图像，对文物图像进行编号形成带有标号的编排图像；

7.根据权利要求6所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述连串释义策略包括组合逻辑和匹配逻辑，所述组合逻辑包括提取编排图像的首段内容和末端内容，根据提取到的字段结合古文字体和释义内容形成释义语段

8.根据权利要求7所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述语义匹配算法具体为，将释义的字段向量组成一个语义矩阵，该矩阵是一个多维向量，采用余弦相似度方式计算释义字段语义矩阵A＝[a1，a2，…，an]，古文数据的释义矩阵B＝[b1，b2，…，bm]的相似度，计算公式如下：

9.根据权利要求8所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述对释义字段和释义要素的相似度进行加权求和：

10.根据权利要求1至9中任意一项所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述释义模块内还配置有字义模型，所述损失释义策略具体包括：

...

【技术特征摘要】

1.一种基于大数据分析的文字识别释义系统，其特征在于，包括：

2.根据权利要求1所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述编排编排策略包括识别逻辑，识别逻辑具体包括：

3.根据权利要求2所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述识别逻辑还包括：

4.根据权利要求3所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述编排策略还包括编号逻辑，所述编号逻辑具体包括：

5.根据权利要求4所述的一种基于大数据分析的文字识别释义系统，其特征在于：所述编号逻辑还包括：

7.根据权利要求6所述的一种基于大数据分析的文字识...

【专利技术属性】
技术研发人员：王益飞，沈春波，程建东，
申请(专利权)人：宁波栎行科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人