【技术实现步骤摘要】
一种古文异文自动识别系统和方法
[0001]本专利技术涉及计算机软件
,特别涉及一种基于深度学习模型SIKU
‑
BERT 开发的古文异文自动识别方法。
技术介绍
[0002]异文是古籍中的常见现象,也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等,不仅耗时、费力、工作量大,而且找到的数据未必精准全面。通过计算机实现异文的自动发掘,可以从更大规模的语料中获取有效信息。并且,结合异文自动发掘的校勘方式可以实现穷尽式检索,对于古籍他校法具有重要意义,为新时期古籍校勘硏究提供了新思路和新方法。
技术实现思路
[0003]本专利技术针对现有技术的缺陷,提供了一种古文异文自动识别系统和方法。
[0004]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0005]一种古文异文自动识别系统,包括:
[0006]古文异文数据集构建模块,用于实现训练集及测试集的读取及加载;
[0007]古文异文特征转换模块,用于将异文句子对转为语义提 ...
【技术保护点】
【技术特征摘要】
1.一种古文异文自动识别系统,其特征在于,包括:古文异文数据集构建模块,用于实现训练集及测试集的读取及加载;古文异文特征转换模块,用于将异文句子对转为语义提取,并保存为词向量形式;古文异文模型训练模块,用于异文句子的文本匹配模型迭代训练;古文异文模型效果评估模块,用于对古文异文识别模型的效果进行评估。2.一种古文异文自动识别方法,其特征在于,包括如下步骤:S1、通过选取古文语料为训练所需的语料,对其进行清洗、去重、校对的预处理,之后按标点符号将原始文本切分为短句,并对语料进行标注,选取意义相同的句子作为句子对,并标明其出现位置,采用“0
‑
1”分类方式对句子对进行标注,0表示非异文句子对,1表示异文句子对,获得具有标签的句子对作为训练语料;S2、基于PyTorch深度学习框架编写模型训练程序,并加载古文领域深度学习模型SIKU
‑
BERT对文本进行处理,调整模型到合适参数,对训练集进行迭代训练,直至训练结束;S3、对实验所得的模型性能进行评价,采用的指标为准确率(Precision)、召回率(Recall)、F值(F
‑
Measure),评估完成后,选择效果最优的模型进行保存;S4、搭建模型调用接口,实现用户直接输入到对古文异文的自动识别。3.根据权利要求2所述的一种古文异文自动识别方法,其特征在于:所述步骤S1中古文语料来源为“中国哲学书电子化计划”网站上《春秋公羊传》《春秋穀梁传》《春秋左传》...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。