当前位置: 首页 > 专利查询>河南大学专利>正文

一种基于语句通顺性的残断汉简图像缀合方法技术

技术编号:36295062 阅读:32 留言:0更新日期:2023-01-13 10:09
本发明专利技术公开了一种基于语句通顺性的残断汉简图像缀合方法,包括以下步骤:A:对待缀合的汉简图像进行图像特征标注;B:构建训练集并训练得到调优训练后的BERT语言模型;C:针对指定的残断汉简图像A,通过对图像特征对比得到汉简图像A的待缀合比对组;D:利用调优训练后的BERT语言模型,将汉简图像A与汉简图像A的待缀合比对组内的汉简图像逐一进行语句通顺性检测,得到与汉简图像A语言通顺性最高的N个待选汉简图像,作为与汉简图像A缀合度最高的N个待选汉简图像。本发明专利技术能够基于汉简图像中文字的语句通顺性和汉简图像特征实现残断汉简图像的缀合,显著提高缀合效率及准确性。显著提高缀合效率及准确性。显著提高缀合效率及准确性。

【技术实现步骤摘要】
一种基于语句通顺性的残断汉简图像缀合方法


[0001]本专利技术涉及一种断裂物品的图像拼合方法,尤其涉及一种基于语句通顺性的残断汉简图像缀合方法。

技术介绍

[0002]汉简是研究汉王朝与丝绸之路沿途各国在政治、经济、军事、文化等方面交流的重要材料,汉简图像则是进行汉简研究的主要材料。在汉简研究的专业领域中,原边是指竹简的天然侧边,一般比较平滑和规则,原边可以是直线或有微小的弧度,而断边则非天然存在,是竹简断裂后在断裂处形成的边。汉简图像的释文是指由历史学家对汉简图像上的文字内容进行人工辨识和整理得到的文字内容。释文数据集是不同汉简上的释文依次整理后得到的文字内容集合。
[0003]现有的汉简研究过程中,研究专家通常利用领域专业知识手工缀合汉简,通过对两块汉简的上下文内容及断边碴口密合度进行综合分析,以判别两块汉简是否由同一块汉简断裂而成。上述手工缀合方法的效率较低,极其耗时。
[0004]申请号为202110361268.8,名称为《一种汉简图像的自动缀合方法》的专利技术授权专利,公开了一种汉简图像的自动缀合方法,能够利用两块本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于语句通顺性的残断汉简图像缀合方法,其特征在于,包括以下步骤:A:对待缀合的汉简图像进行图像特征标注,图像特征包括缺失部位信息、纹路信息和文字内容类型;其中,缺失部位信息是指汉简图像所对应汉简的缺失部位;纹路信息是指汉简图像所对应汉简上的竖向纹路的位置及数量信息;文字内容类型是指汉简图像中文字内容的类型;B:利用现有的汉简图像的释文数据集构建训练集,并利用训练集对BERT预训练语言模型进行调优训练,得到调优训练后的BERT语言模型;C:针对指定的残断汉简图像A,通过对图像特征中的缺失部位信息、纹路信息和文字内容类型的对比,在汉简图像A的缺失部位为缺上或缺下时,保留与汉简图像A缺失部位相对应且纹路信息和文字内容类型均相匹配的所有待缀合汉简图像,作为汉简图像A的待缀合比对组;在汉简图像A的缺失部位为缺左或缺右时,保留与汉简图像A缺失部位相对应且文字内容类型相匹配的所有待缀合汉简图像,作为汉简图像A的待缀合比对组;待缀合比对组内包含有一个或多个待缀合汉简图像;D:利用调优训练后的BERT语言模型,将汉简图像A与汉简图像A的待缀合比对组内的汉简图像逐一进行语句通顺性检测,得到与汉简图像A语言通顺性最高的N个待选汉简图像,作为与汉简图像A缀合度最高的N个待选汉简图像;N为设定的待选汉简图像数量阈值。2.根据权利要求1所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于,所述的步骤B包括以下具体步骤:B1:获取现有的汉简图像的释文数据集,汉简图像的释文数据集由若干段语句组成;B2:对每段语句中的文字信息进行数据清洗,得到去除未知字符、空格、括号及括号中内容的由纯文字组成的释文数据集,作为数据清洗后的汉简图像的释文数据集;B3:将数据清洗后的汉简图像的释文数据集中的繁体字转化为简体字,然后将繁转简处理后的数据集中未出现在BERT词表中的文字经去重后,补入BERT词表中;B4:在繁转简处理后的汉简图像的释文数据集中,仅保留段落中文字数量大于等于文字数量阈值的每段语句,并根据保留下的每段语句建立训练集;B5:依据得到的训练集,构建BERT语言模型训练所需的正负样本;B6:利用得到的正样本和负样本,对BERT预训练语言模型进行调优训练,最终得到调优训练后的BERT语言模型。3.根据权利要求2所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于,所述的步骤B5中,按照下述方法构建BERT语言模型训练所需的正负样本:首先,将训练集中的每段语句分别输入到句读系统中,利用句读系统对每段语句中的文字进行标点符号标注;然后,根据已标注标点符号后的整段语句,按照下述方法构建正样本:(1)寻找整段语句中的句号,通过一个或多个句号将整段语句划分为一句或多句语句;(2)寻找每句语句中的逗号;若整句语句中没有逗号,则随机选取整句语句中的前若干个文字作为正样本的第一划分句,剩余文字作为第二划分句;若整句语句中存在逗号,则通过一个或多个逗号将整句语句划分为两个或多个子句;
然后将整句语句中的两个或多个子句,按照顺序分别划分为正样本的第一划分句和第二划分句,其中,正样本的第一划分句至少包含一个子句,正样本的第二划分句至少包含一个子句;最终构建得到CSV格式的正样本数据集,正样本的表达式为[S1,S2,1];其中,S1表示正样本的第一划分句,S2表示正样本的第二划分句,标签1表示正样本;最后,按照下述方法构建负样本:(1)从两段不同的语句中随机选取子句作为负样本的第一划分句和第二划分句,其中,负样本的第一划分句至少包含一个子句,第二划分句至少包含一个子句;(2)从包含句号的整段语句中,选择句号之前的句子中最后一个或多个子句作为负样本的第一划分句,然后选择句号之后的句子中最前一个或多个子句作为负样本的第二划分句;最终构建得到CSV格式的负样本数据集,负样本的表达式为[S3,S4,0];其中,S3表示负样本的第一划分句,S4表示负样本的第二划分句,标签0表示负样本。4.根据权利要求1所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于,所述的步骤D包括以下具体步骤:D1:提取汉简图像A与待缀合比对组中所有汉简图像上的文字信息并进行数据清洗,将文字信息中出现的未知字符、空格、括号及括号中的内容删除;然后将清洗后的文字信息中的繁体字转化为简体字;D2:根据文字信息在汉简图像A中出现的位置,按照从右至左且从上至下的顺序,依次将经繁转简处理后的汉简图像A的文字信息划分为若干文本列,并利用文本列构建汉简图像A的文本列集合S,S={S1,S2,

,S
m
},S1至S
m
分别表示汉简图像A中从右至左的第1列至第m列文字信息;将待缀合比对组中的第一幅汉简图像B,按照相同的方法构建汉简图像B的文本列集合T,T={T1,T2,

,T
n
},T1至T
n
分别表示汉简图像B中从右至左的第1列至第n列文字信息;D3:计算汉简图像A与汉简图像B在各种相互位置关系及文本列对应状态下的语句通顺性最大值;D4:根据按照上述方法,依次计算出汉简图像A与待缀合比对组内的所有汉简图像,在各种相互位置关系下及对齐状态下对应的语句通顺性数值,并选取与汉简图像A语句通顺性数值最高的N个待选汉简图像,作为与汉简图像A缀合度最高的N个待选汉简图像。5.根据权利要求4所述的基于语句通顺性的残断汉简图像缀合方法,其特征在于:所述的步骤D3中,若汉简图像A为缺下,汉简图像B为缺上;则将汉简图像A的第1列文本列S1与汉简图像B的第1列文本列T1上下对应,然后将文本列S1和文本列T1中的文字按照顺序进行连接形成字符串,再将字符串输入句读系统进行标点符号标注,然后判断文本列S1和文本列T1中文字的连接处是否标注有符号:若连接处未标注任何符号,则选取连接处所在的子句,以该子句在连接处前的文字和连接处后的文字作为S1‑
T1位置下的待预测子句对;若连接处标注的符号为句号或逗号,则选取句号或逗号的前后各一个子句作为S1‑
T1位置下的待预测子句对;将S1‑
T1位置下的待预测子句对输入调优训练后的BERT语言模型,得到语句通顺性数值
NSP(S1,T1);然后按照上述方法求得S2‑
T2位置下的待预测子句对并输入调优训练后的BERT语言模型,得到语句通顺性数值NSP(S2,T2),

,求得S
m

T
n
位置下的待预测子句对并输入调优训练后的BERT语...

【专利技术属性】
技术研发人员:张重生陈远远姚磊凡高娟莫伯峰刘郝霞胡韧奋陈善雄
申请(专利权)人:河南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1