古籍专名识别方法以及装置制造方法及图纸

技术编号:17304443 阅读:74 留言:0更新日期:2018-02-18 22:29
本发明专利技术提供了一种古籍专名识别方法以及装置,通过获取古籍文本,基于古籍统计模型分词算法对所述古籍文本进行分词处理,得到多个专名;基于预先保存的专名知识库,对每个专名进行分类;针对每个专名,判断该专名是否是预先保存的专名知识库中的书名;若不是,针对每个专名,在判断该专名只属于分类类别中的一个类别时,将该专名保存为所述古籍文本的目标专名。该方法可以缓解传统的手工专名标注耗时耗力,传统的机器标注效果较差的问题。提高古籍专名识别的精度及质量,从而满足古籍整理出版工作中的实际应用需求。

The ancient name recognition method and apparatus

The present invention provides an ancient name recognition method and apparatus, through access to ancient texts of ancient books, statistical model of word segmentation algorithm for Chinese word segmentation of the ancient text based on multiple names; proper names stored in advance based on knowledge base, classify each proper names; for each name, whether it is the judgment of the proper name names knowledge base pre stored in the title; if not, for each name, in the judgment of the proper names only belong to a category in the category, the proper name for the preservation of ancient text object names. This method can alleviate the traditional manual annotation of proper names is time-consuming, the traditional machine marked the problem of the poor effect. To improve the precision and quality of the ancient ner, ancient books publishing work so as to meet the practical application needs.

【技术实现步骤摘要】
古籍专名识别方法以及装置
本专利技术涉及数据处理领域,具体而言,涉及一种古籍专名识别方法以及装置。
技术介绍
专名号是用在古籍或某些文史著作里面,用于表示人名、地名、朝代名等的标识方法,有助于读者更好的阅读和理解古籍文献。在传统古籍整理工作中,专名号标点主要依赖于专家学者的知识与经验手动完成,因而耗时耗力,进展缓慢。近年来,随着数字化和信息技术的发展,国内学者开始采用计算机进行机器标点的探索工作,然而,由于古籍文言文语法的复杂性,使得传统的机器标点的效果不尽人意,也没有成型的针对古籍专名号的标注方法。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提供一种古籍专名识别方法以及装置,以缓解传统的手工专名标注耗时耗力,传统的机器标注效果较差的问题。第一方面,本专利技术实施例提供了一种古籍专名识别方法,所述方法包括:获取古籍文本,基于古籍统计模型分词算法对所述古籍文本进行分词处理,得到多个专名;基于预先保存的专名知识库,对每个专名进行分类,其中,分类类别包括:人名、地名、朝代名、民族名、官名和天文名;针对每个专名,判断该专名是否是预先保存的专名知识库中的书名;若不是,针对每个专名,在判断该本文档来自技高网...
古籍专名识别方法以及装置

【技术保护点】
一种古籍专名识别方法,其特征在于,所述方法包括:获取古籍文本,基于古籍统计模型分词算法对所述古籍文本进行分词处理,得到多个专名;基于预先保存的专名知识库,对每个专名进行分类,其中,分类类别包括:人名、地名、朝代名、民族名、官名和天文名;针对每个专名,判断该专名是否是预先保存的专名知识库中的书名;若不是,针对每个专名,在判断该专名只属于分类类别中的一个类别时,将该专名保存为所述古籍文本的目标专名。

【技术特征摘要】
1.一种古籍专名识别方法,其特征在于,所述方法包括:获取古籍文本,基于古籍统计模型分词算法对所述古籍文本进行分词处理,得到多个专名;基于预先保存的专名知识库,对每个专名进行分类,其中,分类类别包括:人名、地名、朝代名、民族名、官名和天文名;针对每个专名,判断该专名是否是预先保存的专名知识库中的书名;若不是,针对每个专名,在判断该专名只属于分类类别中的一个类别时,将该专名保存为所述古籍文本的目标专名。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:针对每个专名,在判断该专名所属的分类类别大于一个类别时,将该专名保存为待标记专名;针对每个待标记专名,保存该待标记专名在所述古籍文本中出现的段落位置;基于预先保存的专名知识库,在判断所述待标记专名是一个所述目标专名的简称或者代称,且与该目标专名出现在同一段落位置时,将该待标记专名保存为目标专名,且更新目标专名库。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:针对剩余的每个待标记专名,基于预先保存的专名知识库,判断该待标记专名是否包含所述专名知识库中对应的组合类型;若是,将该待标记专名保存为目标专名,且更新所述目标专名库。4.根据权利要求3所述的方法,其特征在于,所述组合类型包括:人名+官名、人名+地名或者地名+官名。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:针对剩余的每个待标记专名,基于预先保存的专名知识库,判断该待标记专名是否包含所述专名...

【专利技术属性】
技术研发人员:干生洪洪涛
申请(专利权)人:古联北京数字传媒科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1