当前位置: 首页 > 专利查询>吉林大学专利>正文

基于历时汉字知识图谱的古文字相似度量化方法技术

技术编号:34050447 阅读:18 留言:0更新日期:2022-07-06 15:41
本发明专利技术提出了一种基于历时汉字知识图谱的古文字相似度量化方法,属于文字识别技术领域,该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成;本发明专利技术构建知识图谱,并基于该知识图谱提出了古文字字形相似度的自动化度量方法。在汉字知识库的设计上,本发明专利技术首次针对汉字和词汇的特点,从字形、部件、文字、词汇、义项等完整层次进行建模,从而构成了汉字之间的关联网络,并且图谱具有历时性,可以关联中国各个历史时期的文字。在字形相似度的计算上,本发明专利技术利用历时汉字知识图谱中的知识,使古文字字形之间的相似性可以被量化计算。本发明专利技术提出的方法可以帮助古文字研究人员高效获取领域知识。究人员高效获取领域知识。究人员高效获取领域知识。

Similarity quantification method of ancient Chinese characters based on diachronic Chinese character knowledge map

【技术实现步骤摘要】
基于历时汉字知识图谱的古文字相似度量化方法


[0001]本专利技术属于文字识别
,更为具体地,涉及一种基于历时汉字知识图谱的古文字相似度量化方法。

技术介绍

[0002]目前已有的古文字知识库多数都是以拓片或手写图片为中心的图像数据库,例如安阳师范学院构建的基于人工手写甲骨文字符数据库,其中包含83245个图片,3881个文字;清华大学构建的甲骨文知识库,将每个古文字字形与相应的现代汉字相匹配,并存储了每个文字的各种不同字形及对应的字形图片。
[0003]但是目前的古文字知识库建模存在几点局限:(1)仅对于古文字和图像等信息进行了存储,未针对古文字在字形结构、字义等专业领域的属性和文字之间的关系进行建模;(2)仅针对一种特定时代的古文字,如甲骨文,未能以一种跨历史时期的演化发展视角对古文字知识进行建模。
[0004]目前已有很多对词汇语义进行建模的单语言或多语言词汇知识库,例如英语词网,它的基本结构包括词汇、义项、同义词集,同义词集之间通过语义关系彼此连接,从而形成概念语义网络。遵从词网的体系结构,已经开发了很多版本的中文词网,这些知识库已经被广泛用于自然语言处理任务,但词网结构是为英文词汇来设计的,它的模型无法描述汉字的属性和关系。
[0005]目前已有的形近字量化技术仅针对现代汉字,通过利用现代汉字的部件、拼音、笔划、代码等可以直接获取的属性作为特征,利用深度学习技术进行训练,获得文字对之间的相似度排名,具有不错的效果。
[0006]但是将这种技术应用到古文字时面临如下问题:(1)古文字大多以图像形式存储,难以自动化获取这些属性;(2)深度学习技术是监督学习模型,这意味着需要一定数量的已知字对和标注的相似度作为样本,对于古文字来说这种标注需要领域专家参与,需要大量的人力成本;(3)已有技术计算字形相似度的过程中未考虑相似字形之间是否存在联系,例如,一些文字虽然字形相似,但是深入分析它们的部件构成并无关系,而另一部分文字是由于共同的字源、相近的含义,故而导致了字形上的相似,第二类相似文字需要优先推荐。

技术实现思路

[0007]针对背景中陈述的问题和已有技术的局限性,本专利技术的目的是提出一种基于历时汉字知识图谱的古文字相似度量化方法,基于汉字知识图谱中的字形、部件、文字等信息,利用知识表示技术和计算机视觉技术将这些特征表示为高维向量,利用余弦相似度算法量化文字向量间的相似度。该方法以部件构成关系的视角而不是仅依靠人类视觉相似考虑字形相似度,且无需获取汉字知识图谱以外的任何信息,可以快速扩展到知识图谱包含的任何时代的文字对。
[0008]为实现上述目的,本专利技术采用如下技术方案:基于历时汉字知识图谱的古文字相
似度量化方法,其特征在于:该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成;
[0009]S1、历时汉字知识图谱构建
[0010](1)知识库架构设计、属性和关系设计;
[0011]历时汉字知识图谱分为字形、部件、古文字、文字、词汇、义项、同义词集和概念网络八层;
[0012]所述历时汉字知识图谱的八个层次以及层次之间的关联关系如下:
[0013]字形:每个字形来自于出土文物的拓片图像;
[0014]部件:部件是部首或文字,是复合文字的组成单位,所有字形都与组成它的部件相关联;
[0015]古文字:所有字形都应与各个不同历史时期对应的古文字相关联;
[0016]文字:包括已释字和未释字,前者又分为现代汉字和丢失字;各个不同历史时期的古文字,如果代表同一个字,应该关联到同一个文字,如果该古文字已经被释读,并且仍在使用,将其与现代汉字联系起来,否则,如果古文字已被释读但已经不使用,则应与对应的丢失字关联,最后,未释读古文字应与相应未释字关联;
[0017]词汇:中国历史上的所有单音节词和多音节词;
[0018]义项:词汇的含义,所有词汇都应与其相应的义项相关联;
[0019]同义词集:所有义项都与对应的同义词集相关联;
[0020]概念网络:用于将相关的同义词集关联起来;
[0021]同时所述历时汉字知识图谱中还包含文字之间的三种关系,分别是分化关系、指事关系和通假关系;
[0022](2)知识库构建和存储;
[0023]①
古文字提取:利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一个古文字,将其分类到对应的古文字字形列表中;
[0024]②
古文字字体库构建:在字体文件中,每个文字具有唯一编码,使用potrace工具批量将文字图片转化为矢量图,并使用svg2ttf工具自动生成字体并存储到ttf字体文件中;
[0025]③
部件及与部件相关的关系标注:基于深度学习的图像目标检测算法,使用mobilenetv3网络进行特征提取,自动识别古文字拓片图像中的部件,其中文字之间的分化关系、指事关系及通假关系提取自古文字相关书籍和论文中的已知记录;并在算法识别出的部件和对应的文字之间标注文字与部件之间的包含关系,在相关部件之间标注部件之间的分化、指事或通假关系;
[0026]④
自动化校对:对标注的一致性进行自动化检查,根据相同部件列表和标准部件字形(标准部件字形,就是现代汉字中部件的通用的标准字形,例如“水”与“氵”表示同一部件,其标准字形设置为“氵”),执行python程序,遍历所有标注的部件,将所有非标准字形部件改写为对应的标准字形;
[0027]⑤
自动提取字典数据中的词汇、义项:自动化提取包括词汇、义项、解释和例句结构化数据;这些结构化数据在字典中可以被直接提取;
[0028]⑥
同义、上位关系提取:基于规则的自动化方法提取义项解释中的同义关键词和
上位关键词来获取关系,首先根据字典定义的语言规律总结停留词表并去除定义中的停留词(例如“比喻”、“泛指”、“特指”);接下来设计规则:如果去除停留词后该句子为一个词汇并存在于词汇表中,则抽取该词汇为同义关键词;否则如果该句字中“的”与“。”之间为一个词汇并存在于词汇表中,则抽取该词汇为上位关键词,例如“指宿鸟。”可以提取同义关键词“宿鸟”,“带汁水的菜肴。”可以提取上位关键词“菜肴”;最后将定义和词汇标签中包含相同同义关键词或上位关键词的义项分别标注为同义词和上位词。
[0029]⑦
义项年代标注:根据百度百科自动标记词典中的例句的作者和朝代,使知识库可以初步整合每个义项出现的时间点;
[0030]⑧
知识图谱架构设计:设计知识图谱的实体、关系和属性,共九个实体,九个实体包括部件、字形、文字、每个历史时期的古文字(甲骨文、金文、战国文字)、词汇、义项、同义词集,实体间的关系,例如文字和字形间的包含关系、部件与部件之间的分化、指事或通假关系等,以及每个实体的属性,例如义项实体的定义、字形实体的图片;
[0031]⑨
数据融合:对于标注的所有数据,由本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于历时汉字知识图谱的古文字相似度量化方法,其特征在于:该方法由历时汉字知识图谱构建步骤和古文字字形相似度计算步骤两部分组成;S1、历时汉字知识图谱构建(1)知识库架构设计、属性和关系设计;历时汉字知识图谱分为字形、部件、古文字、文字、词汇、义项、同义词集和概念网络八层;所述历时汉字知识图谱的八个层次以及层次之间的关联关系如下:字形:每个字形来自于出土文物的拓片图像;部件:部件是部首或文字,是复合文字的组成单位,所有字形都与组成它的部件相关联;古文字:所有字形都应与各个不同历史时期对应的古文字相关联;文字:包括已释字和未释字,前者又分为现代汉字和丢失字;各个不同历史时期的古文字,如果代表同一个字,应该关联到同一个文字,如果该古文字已经被释读,并且仍在使用,将其与现代汉字联系起来,否则,如果古文字已被释读但已经不使用,则应与对应的丢失字关联,最后,未释读古文字应与相应未释字关联;词汇:中国历史上的所有单音节词和多音节词;义项:词汇的含义,所有词汇都应与其相应的义项相关联;同义词集:所有义项都与对应的同义词集相关联;概念网络:用于将相关的同义词集关联起来;同时所述历时汉字知识图谱中还包含文字之间的三种关系,分别是分化关系、指事关系和通假关系;(2)知识库构建和存储;

古文字提取:利用已有的OCR光学字符识别技术从铭文拓片图像中自动化识别每一个古文字,将其分类到对应的古文字字形列表中;

古文字字体库构建:在字体文件中,每个文字具有唯一编码,使用potrace工具批量将文字图片转化为矢量图,并使用svg2ttf工具自动生成字体并存储到ttf字体文件中;

部件及与部件相关的关系标注:基于深度学习的图像目标检测算法,使用mobilenetv3网络进行特征提取,自动识别古文字拓片图像中的部件,其中文字之间的分化关系、指事关系及通假关系提取自古文字相关书籍和论文中的已知记录;并在识别出的部件和对应的文字之间标注文字与部件之间的包含关系,在相关部件之间标注部件之间的分化、指事或通假关系;

自动化校对:对标注的一致性进行自动化检查,根据相同部件列表和标准部件字形,执行python程序,遍历所有标注的部件,将所有非标准字形部件改写为对应的标准字形;

自动提取字典数据中的词汇、义项;

同义、上位关系提取:首先根据字典定义的语言规律总结停留词表并去除定义中的停留词;接下来设计规则:如果去除停留词后该句子为一个词汇并存在于词汇表中,则抽取该词汇为同义关键词;否则,如果该句字中“的”与“标点符号句号”之间为一个词汇并存在于词汇表中,则抽取该词汇为上位关键词;最后将定义和词汇标签中包含相同同义关键词或上位关键词的义项分别标注为同义词和上位词;

义项年代标注:根据百度百科自动标记词典中的例句的作者和朝代,使知识库初步
整合每个义项出现的时间点;

知识图谱架构设计:设计知识图谱的实体、关系和属性,共九个实体,九个实体包括部件、字形、文字、每个历史时期的古文字、词汇、义项、同义词集,实体间的关系,以及每个实体的属性;

数据融合:对于标注的所有数据,运行python程序,根据字体编码检索所有文字,将同一文字在不同数据源、不同历史时期关联的数据全部检索出来,接下来对不同数据来源描述相同文字的数据进行整合,对每个文字每一历史时期取所有数据源数据的并集,并合并重复的数据,如果数据以字符串形式描述,运行python程序判断两个义项的定义之间的余弦相似值,将相似度高于90%阈值的两个义项设置为相同义项,进行合并;如果数据以图片形式描述,如果两个字形的图片相似度阈值超过80%,则将两个字形合并为同一个字形;

数据存储:使用关系型数据库存储历时汉字知识图谱,根据知识图谱架构设计了数据库表,每个实体对应一张数据库表,数据库表包括多行和多列,数据库表的行和列形成单元格,其中每个单元格包括至少一个值或者不包括值;每张表包含该实体的唯一主键和全部属性,知识图谱中的关系使用关联表表示,为每两个具有关系的实体数据库表建立一张关联表,关联表包含两列分别为两个实体表的主键,从而通过这种设计使数据库能够查询知识图谱的实体、属性和关系;S2、古文字字形相似度计算(1)基于拓片图像分类的象形文字字形相似度计算;采用深度残差神经网络来获取古文字图像的高维向量,具体设共有n个古文字和m个文字图像,图像集合为X(x1,x2,

x
m
),文字集合为C(c1,c2,

c
n
);网络任务是将每个图像x分类到对应的文字c,p(c|x,σ)用于表示图像属于文字的概率,其中σ是神经网络的参数;网络输入是图像x,而输出是|C|维向量,每个维度表示每个文字c的概率p;在训练步骤中,提供了每个字形的图像及其对应的汉字标签;采用最小化交叉熵损失函数训练深度残差神经网络,用以获得深度残差神经网络的最优神经网络参数σ;然后直接将|C|维向量输出用作图像嵌入给定包含属于字形g的所有图像的集合ImageSet,将表示g的字形向量设置为g的图像集合中所有图像向量的平均值,如公式(1)所示;其中表示第i个字形g
i
的向量;ImageSet
i
表示第i个字形g
i
的图像集合;|ImageSet
i
|表示集合中图像的数量;表示第j个图像x
j
的向量;在得到字形嵌入后,使用余弦相似度得到字形对之间的相似度,这里乘以一个超参数α,当两个字形共享相同或相关的部首时,α=1,否则,α将被设置为大于0且小于1的值,公式(2),其中,两个字形共享相同或相关的部首也就是两个字属于分化、指事或通用关系;
其中φ表示空集,otherwise表示否则,即两个字形没有共享相同或相关的部首的情况;PicSim(g
i
,g
j
)表示第i个字形g
i
和第j个字形g
j
使用基于拓片图像分类的方法计算得出的字形相似度;表示字形g
i
的向量和字形g
j
的向量的余弦相似度;RSet
i
和RSet
j
分别表示字形g
i
和字形g
j
中包含的部件及其相关部件的集合,所述相关部件指的是具有分化、指事或通用关系的文字包含的部件,最后,给定包含属于文字c的所有字形的集合GlyphSet,两个文字之间的相似度是它们的字形之间相似度组合的最大值,公式(3);其中PicSim(c
k
...

【专利技术属性】
技术研发人员:徐昊迟杨史大千刁晓蕾李春桃
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1