古籍标点填充方法和装置制造方法及图纸

技术编号:27006788 阅读:27 留言:0更新日期:2021-01-08 17:10
本发明专利技术公开了一种古籍标点填充方法和装置,所述古籍标点填充方法包括:对原始语料进行数据清洗,确定神经网络的训练语料;所述原始语料包括已出版古籍的电子版文档;确定神经网络的结构;以及,基于训练语料对神经网络进行训练,确定神经网络的参数;以及,基于确定的神经网络的结构和参数获取古籍标点填充结果。本发明专利技术能够对古籍进行自动标点填充,提高古籍整理的效率。

【技术实现步骤摘要】
古籍标点填充方法和装置
本专利技术涉及机器学习领域,特别涉及一种古籍标点填充方法和装置。
技术介绍
标点符号是人们理解文献作品的重要工具。然而很多古籍文献原本并没有标点符号,这就可能会使读者在阅读过程中无法真正理解古籍文献的真正表达。为方便人们对古籍文献的理解和学习,开始出现人工对古籍文献加注标点符号,即对无标点符号的古籍文献进行现代标点符号填充。但古籍数量庞大,人工加注费时费力;且参与古籍加注人员的标点加注能力与标点加注质量参差不齐,可能会出现标注质量不高的情况,这些都直接影响到古籍整理工作,也会影响后人对古代文化及文献的理解与传承。目前为止,人们对于语音识别结果的标点符号的添加进行了一定的研究,但未有关于对古籍进行标点填充的报道。CN110688822A公开了一种标点符号的添加方法及设备、介质。所述方法包括:获取待添加标点符号的文本;将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型,采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型,并在所述标点符号待添加位置的前后分词单元处,采用所述标点符号类型对应的标签组合进行标注,输出对应的标点符号标注结果;根据所述标点符号标注结果,对所述待添加标点符号的文本添加相应的标号符号;其中,所述标点符号标注模型包括预训练的语言子模型,所述语言子模型为具有时间序列的神经网络模型。该专利文献适用于语音识别结果的标点符号的添加,不涉及古籍的标点符号的添加。CN107767870A公开了一种标点符号的添加方法、装置和计算机设备。包括:对待识别文本中的每个汉字进行编码,根据所述汉字的编码、所述汉字的分词词性和分词边界生成所述汉字的特征向量;将所述汉字的特征向量输入双向的长短时记忆模型,通过所述双向的长短时记忆模型生成所述汉字的输入特征;将所述汉字的输入特征输入深层神经网络模型,获得所述汉字后每种标点符号的添加结果对应的概率;根据概率最高的添加结果在所述汉字后添加标点符号。该专利文献适用于语音信息识别结果的标点符号的添加,不涉及古籍的标点符号的添加。CN110674629A公开了一种标点符号标注模型及其训练方法、设备、存储介质。该方法包括:获取包含标点符号的第一训练语料;将第一训练语料输入预设的具有时间序列的神经网络模型进行预训练,获得预训练的语言子模型;获取包含标点符号的第二训练语料,将第二训练语料去除标点符号,并在已去除的标点符号的前后分词单元处标注相应的标签组合,得到第三训练语料;将第三训练语料输入初始的标点符号标注模型进行迁移学习训练,得到训练好的标点符号标注模型,其中,标点符号标注模型包括预训练的语言子模型,第三训练语料包括无标点文本集合和标签序列集合。该专利文献也是适用于语音信息识别结果的标点符号的标注。因此,需要提供一种自动的、准确性高的古籍标点填充方法。
技术实现思路
本专利技术公开的示例性实施例的目的在于克服现有技术中的上述的和/或其他的问题。因此,根据本专利技术公开的一个方面,提供了一种古籍标点填充方法,包括:对原始语料进行数据清洗,确定神经网络的训练语料;所述原始语料包括已出版古籍的电子版文档;确定神经网络的结构;以及,基于训练语料对神经网络进行训练,确定神经网络的参数;以及,基于确定的神经网络的结构和参数获取古籍标点填充结果。根据本专利技术的古籍标点填充方法,优选地,对原始语料进行数据清洗,确定神经网络的训练语料包括:清除原始语料中无具体含义的特殊字符,将原始语料中的非常见字由字符串表示转换为汉字表示,去掉原始语料中包含句号或逗号少于设定数量的文本,确定神经网络的训练语料。根据本专利技术的古籍标点填充方法,优选地,确定神经网络的结构包括:确定神经网络模型为Bi-LSTM,使用平方根函数调整神经网络的各层输出;以及,设定神经网络的残差网络。根据本专利技术的古籍标点填充方法,优选地,基于训练语料对神经网络进行训练,确定神经网络的参数包括:将训练语料映射为设定长度的字向量;将字向量输入到神经网络,得到第一输出结果;以及,将第一输出结果的维度调整到设定维度,得到第二输出结果;以及,将第二输出结果作为softmax函数输入,将softmax函数输出概率最大的标点确定为训练结果;基于训练结果确定损失函数数值,基于损失函数数值确定神经网络的参数。根据本专利技术公开的另一个方面,提供了一种古籍标点填充装置,包括:训练语料确定单元,用于对原始语料进行数据清洗,确定神经网络的训练语料;神经网络结构确定单元,用于确定神经网络的结构;以及,神经网络训练单元,基于训练语料对神经网络进行训练,确定神经网络的参数;以及,填充结果获取单元,基于确定的神经网络的结构和参数获取古籍标点填充结果。根据本专利技术的古籍标点填充装置,优选地,训练语料确定单元包括:特殊字符清除单元,用于清除原始语料中无具体含义的特殊字符;汉字转换单元,用于将原始语料中的非常见字由字符串表示转换为汉字表示;无效文本去除单元,用于去掉原始语料中包含句号或逗号少于设定数量的文本。根据本专利技术的古籍标点填充装置,优选地,神经网络结构确定单元包括:神经网络模型确定单元,用于确定神经网络模型为Bi-LSTM,使用平方根函数调整神经网络的各层输出;残差网络设定单元,用于设定神经网络的残差网络。根据本专利技术的古籍标点填充装置,优选地,神经网络训练单元包括:字向量设定单元,用于将训练语料映射为设定长度的字向量;第一输出结果获取单元,用于将字向量输入到神经网络,得到第一输出结果;以及,第二输出结果获取单元,用于将第一输出结果的维度调整到设定维度,得到第二输出结果;以及,训练结果确定单元,用于将第二输出结果作为softmax函数输入,将softmax函数输出概率最大的标点确定为训练结果。根据本专利技术公开的再一方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述古籍标点填充方法的步骤。根据本专利技术公开的又一方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述古籍标点填充方法的步骤。本专利技术基于fairseq框架采用神经网络通过人工智能的方式对古籍进行自动标点填充,节省人工填充古籍标点符号的人力物力,提高古籍整理的效率以及准确率。附图说明通过结合附图对于本专利技术公开的示例性实施例进行描述,可以更好地理解本专利技术,在附图中:图1为本专利技术的一种计算设备的示意性结构框图;图2为本专利技术的一种古籍标点填充方法示意性流程图;图3为本专利技术的一种古籍标点填充装置示意图。具体实施方式以下将描述本专利技术的具体实施方式,需要指出的是,在这些实施方式的具体描述过程中,为了进行简明扼要本文档来自技高网
...

【技术保护点】
1.一种古籍标点填充方法,包括:/n对原始语料进行数据清洗,确定神经网络的训练语料;所述原始语料包括已出版古籍的电子版文档;/n确定神经网络的结构;以及,/n基于训练语料对神经网络进行训练,确定神经网络的参数;以及,/n基于确定的神经网络的结构和参数获取古籍标点填充结果。/n

【技术特征摘要】
1.一种古籍标点填充方法,包括:
对原始语料进行数据清洗,确定神经网络的训练语料;所述原始语料包括已出版古籍的电子版文档;
确定神经网络的结构;以及,
基于训练语料对神经网络进行训练,确定神经网络的参数;以及,
基于确定的神经网络的结构和参数获取古籍标点填充结果。


2.如权利要求1所述的古籍标点填充方法,其中,对原始语料进行数据清洗,确定神经网络的训练语料包括:
清除原始语料中无具体含义的特殊字符,将原始语料中的非常见字由字符串表示转换为汉字表示,去掉原始语料中包含句号或逗号少于设定数量的文本,确定神经网络的训练语料。


3.如权利要求1所述的古籍标点填充方法,其中,确定神经网络的结构包括:
确定神经网络模型为Bi-LSTM,使用平方根函数调整神经网络的各层输出;以及,
设定神经网络的残差网络。


4.如权利要求1所述的古籍标点填充方法,其中,基于训练语料对神经网络进行训练,确定神经网络的参数包括:
将训练语料映射为设定长度的字向量;
将字向量输入到神经网络,得到第一输出结果;以及,
将第一输出结果的维度调整到设定维度,得到第二输出结果;以及,
将第二输出结果作为softmax函数输入,将softmax函数输出概率最大的标点确定为训练结果;
基于训练结果确定损失函数数值,基于损失函数数值确定神经网络的参数。


5.一种古籍标点填充装置,包括:
训练语料确定单元,用于对原始语料进行数据清洗,确定神经网络的训练语料;
神经网络结构确定单元,用于确定神经网络的结构;以及,
神经网络训练单元,基于...

【专利技术属性】
技术研发人员:程瑞雪
申请(专利权)人:古联北京数字传媒科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1