古籍标点填充方法和装置制造方法及图纸

技术编号：27006788 阅读：27 留言：0更新日期：2021-01-08 17:10

本发明专利技术公开了一种古籍标点填充方法和装置，所述古籍标点填充方法包括：对原始语料进行数据清洗，确定神经网络的训练语料；所述原始语料包括已出版古籍的电子版文档；确定神经网络的结构；以及，基于训练语料对神经网络进行训练，确定神经网络的参数；以及，基于确定的神经网络的结构和参数获取古籍标点填充结果。本发明专利技术能够对古籍进行自动标点填充，提高古籍整理的效率。

全部详细技术资料下载

【技术实现步骤摘要】
古籍标点填充方法和装置
本专利技术涉及机器学习领域，特别涉及一种古籍标点填充方法和装置。
技术介绍
标点符号是人们理解文献作品的重要工具。然而很多古籍文献原本并没有标点符号，这就可能会使读者在阅读过程中无法真正理解古籍文献的真正表达。为方便人们对古籍文献的理解和学习，开始出现人工对古籍文献加注标点符号，即对无标点符号的古籍文献进行现代标点符号填充。但古籍数量庞大，人工加注费时费力；且参与古籍加注人员的标点加注能力与标点加注质量参差不齐，可能会出现标注质量不高的情况，这些都直接影响到古籍整理工作，也会影响后人对古代文化及文献的理解与传承。目前为止，人们对于语音识别结果的标点符号的添加进行了一定的研究，但未有关于对古籍进行标点填充的报道。CN110688822A公开了一种标点符号的添加方法及设备、介质。所述方法包括：获取待添加标点符号的文本；将所述待添加标点符号的文本输入完成迁移学习训练的标点符号标注模型，采用所述标点符号标注模型预测所述待添加标点符号的文本中的标点符号待添加位置及对应标点符号类型，并在所述标点符号待添加位置的前后分词单元处，采用所述标点符号类型对应的标签组合进行标注，输出对应的标点符号标注结果；根据所述标点符号标注结果，对所述待添加标点符号的文本添加相应的标号符号；其中，所述标点符号标注模型包括预训练的语言子模型，所述语言子模型为具有时间序列的神经网络模型。该专利文献适用于语音识别结果的标点符号的添加，不涉及古籍的标点符号的添加。CN107767870A公开了一种标点符号的添加方...

【技术保护点】
1.一种古籍标点填充方法，包括：/n对原始语料进行数据清洗，确定神经网络的训练语料；所述原始语料包括已出版古籍的电子版文档；/n确定神经网络的结构；以及，/n基于训练语料对神经网络进行训练，确定神经网络的参数；以及，/n基于确定的神经网络的结构和参数获取古籍标点填充结果。/n

【技术特征摘要】
1.一种古籍标点填充方法，包括：
对原始语料进行数据清洗，确定神经网络的训练语料；所述原始语料包括已出版古籍的电子版文档；
确定神经网络的结构；以及，
基于训练语料对神经网络进行训练，确定神经网络的参数；以及，
基于确定的神经网络的结构和参数获取古籍标点填充结果。

2.如权利要求1所述的古籍标点填充方法，其中，对原始语料进行数据清洗，确定神经网络的训练语料包括：
清除原始语料中无具体含义的特殊字符，将原始语料中的非常见字由字符串表示转换为汉字表示，去掉原始语料中包含句号或逗号少于设定数量的文本，确定神经网络的训练语料。

3.如权利要求1所述的古籍标点填充方法，其中，确定神经网络的结构包括：
确定神经网络模型为Bi-LSTM，使用平方根函数调整神经网络的各层输出；以及，
设定神经网络的残差网络。

4.如权利要求1所述的古籍标点填充方法，其中，基于训练语料对神经网络进行训练，确定神经网络的参数包括：
将训练语料映射为设定长度的字向量；
将字向量输入到神经网络，得到第一输出结果；以及，
将第一输出结果的维度调整到设定维度，得到第二输出结果；以及，
将第二输出结果作为softmax函数输入，将softmax函数输出概率最大的标点确定为训练结果；
基于训练结果确定损失函数数值，基于损失函数数值确定神经网络的参数。

5.一种古籍标点填充装置，包括：
训练语料确定单元，用于对原始语料进行数据清洗，确定神经网络的训练语料；
神经网络结构确定单元，用于确定神经网络的结构；以及，
神经网络训练单元，基于...

【专利技术属性】
技术研发人员：程瑞雪，
申请(专利权)人：古联北京数字传媒科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人