一种古文异文自动识别系统和方法技术方案

技术编号:32187320 阅读:22 留言:0更新日期:2022-02-08 15:51
本发明专利技术公开了一种古文异文自动识别系统和方法,包括:古文异文数据集构建模块;古文异文特征转换模块;古文异文模型训练模块;古文异文模型效果评估模块。步骤为:S1、选取合适的语料作为训练集,并人工校对并对其处理;S2、编写模型训练程序,调整模型参数,对训练集进行迭代训练;S3、对实验结果进行评估,并将最优的模型进行保存;S4、搭建模型调用接口,从而方便用户进行直接使用,实现对古文异文的识别。本发明专利技术的优点是:通过计算机实现异文的自动发掘,可以从更大规模的语料中获取有效信息,极大的降低了人力物力,减小工作量。减小工作量。

【技术实现步骤摘要】
一种古文异文自动识别系统和方法


[0001]本专利技术涉及计算机软件
,特别涉及一种基于深度学习模型SIKU

BERT 开发的古文异文自动识别方法。

技术介绍

[0002]异文是古籍中的常见现象,也是重要研究对象。传统的古籍校勘是从大量古籍文献中人工查找校勘资料包括异文等,不仅耗时、费力、工作量大,而且找到的数据未必精准全面。通过计算机实现异文的自动发掘,可以从更大规模的语料中获取有效信息。并且,结合异文自动发掘的校勘方式可以实现穷尽式检索,对于古籍他校法具有重要意义,为新时期古籍校勘硏究提供了新思路和新方法。

技术实现思路

[0003]本专利技术针对现有技术的缺陷,提供了一种古文异文自动识别系统和方法。
[0004]为了实现以上专利技术目的,本专利技术采取的技术方案如下:
[0005]一种古文异文自动识别系统,包括:
[0006]古文异文数据集构建模块,用于实现训练集及测试集的读取及加载;
[0007]古文异文特征转换模块,用于将异文句子对转为语义提取,并保存为词向量形本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种古文异文自动识别系统,其特征在于,包括:古文异文数据集构建模块,用于实现训练集及测试集的读取及加载;古文异文特征转换模块,用于将异文句子对转为语义提取,并保存为词向量形式;古文异文模型训练模块,用于异文句子的文本匹配模型迭代训练;古文异文模型效果评估模块,用于对古文异文识别模型的效果进行评估。2.一种古文异文自动识别方法,其特征在于,包括如下步骤:S1、通过选取古文语料为训练所需的语料,对其进行清洗、去重、校对的预处理,之后按标点符号将原始文本切分为短句,并对语料进行标注,选取意义相同的句子作为句子对,并标明其出现位置,采用“0

1”分类方式对句子对进行标注,0表示非异文句子对,1表示异文句子对,获得具有标签的句子对作为训练语料;S2、基于PyTorch深度学习框架编写模型训练程序,并加载古文领域深度学习模型SIKU

BERT对文本进行处理,调整模型到合适参数,对训练集进行迭代训练,直至训练结束;S3、对实验所得的模型性能进行评价,采用的指标为准确率(Precision)、召回率(Recall)、F值(F

Measure),评估完成后,选择效果最优的模型进行保存;S4、搭建模型调用接口,实现用户直接输入到对古文异文的自动识别。3.根据权利要求2所述的一种古文异文自动识别方法,其特征在于:所述步骤S1中古文语料来源为“中国哲学书电子化计划”网站上《春秋公羊传》《春秋穀梁传》《春秋左传》...

【专利技术属性】
技术研发人员:黄水清梁媛王东波
申请(专利权)人:南京农业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1