一种基于ObiBert的甲骨文自动缀合校验方法技术

技术编号:32021772 阅读:35 留言:0更新日期:2022-01-22 18:42
本发明专利技术公开了一种基于ObiBert的甲骨文自动缀合校验方法,包括以下步骤:S1、收集大量甲骨文的释文文本,在甲骨文专家的直接参与下,形成甲骨文Bert语料;S2、将甲骨文Bert语料中的甲骨文释文文本形成加和向量,具体包括Token嵌入、文本嵌入和位置嵌入的加和,得到ObiBert神经网络模型;S3、然后将缀合后的甲骨片上的甲骨文释文通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确。本发明专利技术通过ObiBert判断甲骨文碎片自动缀合的结果是否正确,以期结合甲骨文释文文本从计算机自动缀合的候选结果中筛选出概率最大的可选项,即提出一种判断甲骨文碎片自动缀合结果是否正确的方法,进一步提高甲骨文的应用。进一步提高甲骨文的应用。进一步提高甲骨文的应用。

【技术实现步骤摘要】
一种基于ObiBert的甲骨文自动缀合校验方法


[0001]本专利技术属于甲骨文
,具体涉及一种基于ObiBert的甲骨文自动缀合校验方法。

技术介绍

[0002]甲骨文是中华民族的瑰宝,具有重要的历史价值和科学研究意义。但是甲骨文由于其文物特性和历史、材质等原因往往以碎片形式存在,将这些甲骨文碎片正确地拼接在一起称为甲骨文缀合。实际的甲骨文研究中,研究对象是甲骨文照片、拓片等图像而不是甲骨文实物。传统的甲骨文缀合研究是甲骨文专家通过收集甲骨片图像、复印、裁剪、拼接、校对等步骤完成,只有具备极其深厚的研究积累和缀合经验的专家才能胜任。这极大地阻碍了现代甲骨文研究的进展。自从计算机技术引入甲骨文研究中以来,在很大程度上促进了甲骨文缀合研究的发展,如基于图像处理技术可以实现基于边缘和轮廓的甲骨文碎片自动缀合。但是新的问题是:甲骨文碎片的边缘及轮廓之间并非是严丝合缝的,由于甲骨文材质的磨损以及细小碎片的存在,使得计算机的甲骨碎片自动缀合(以下简称自动缀合)出现大量的候选结果,显然单单使用图像处理技术不足以胜任甲骨片缀合的研究工作。
专利本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ObiBert的甲骨文自动缀合校验方法,其特征在于,包括以下步骤:S1、收集大量甲骨文的释文文本,构建甲骨文Bert语料;S2、将甲骨文Bert语料中的甲骨文释文文本进行向量化,形成加和向量,得到ObiBert神经网络模型,具体包括Token嵌入、文本嵌入和位置嵌入混合加和;S3、然后将缀合后的甲骨片上的甲骨文释文文本,通过ObiBert的NSP模型来判断甲骨文碎片自动缀合的结果是否正确;判断方法包括以下步骤:提取自动缀合后的任意两片甲骨上前后衔接的释文得到两句话作为输入,NSP模型添加标记符号并将对应的输出作为释文文本的语义表示,同时对输入的两句话用一个分割符号进行分割,并分别对两句话附加两个不同的释文文本向量以作区分;如模型的输出为正确,则表示两片甲骨的缀合是正确的;若模型的输出为错误,则表示两片甲骨的缀合是错误的。2.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,步骤S1具体包括以下步骤:S11、将获取的甲骨文的释文文本按照字符进行间隔,即一个甲骨字就分成一个词,且去掉释文文本中的标点符号,符合甲骨文原文本身没有句读符号的特点;S12、构造词典,统计甲骨字的频率,并根据频率将每个甲骨字表示为一个整数id,并记录甲骨字与id之间的映射关系;S13、按语序将甲骨文的释文文本表示为id序列;S14、利用word2vec的CBOW神经网络模型对甲骨文释文文本语料进行训练,采用一个大小为3的滑动窗口扫描语料,在每个窗口内,通过上下文预测中心词,并形成训练数据;S15、训练完成后获得一个参数矩阵,该矩阵的每一行就是词典中对应甲骨字的字向量,行数为词典的大小。3.根据权利要求1所述的基于ObiBert的甲骨文自动缀合校验方法,其特征在于,还包括以下步骤:S4、步骤S3中如果缀合的两片被判断为是正确的,则将其作为一个整体,再与其相邻的甲骨片进行组合,重复步骤S3直至自动缀合的结果中所有片均判断为正确为止,或者保留其最多的正确缀合片数组合作为最终缀合结...

【专利技术属性】
技术研发人员:熊晶翟雪陈利平刘国英刘永革韩胜伟王楠张展
申请(专利权)人:安阳师范学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1