中文异体字字典库构建与输出利用方法技术

技术编号:38320041 阅读:11 留言:0更新日期:2023-07-29 09:02
本发明专利技术涉及中文异体字字典库构建与输出利用方法,包括以下步骤:步骤一:搭建加工系统;步骤二:从《汉语大字典》正文内容出发并结合我们加工系统校对的海量异体字样本,穷尽式地搜集材料,归纳整理正体字对应的异体字字图集,并把正体字的四角号码、字形、汉语拼音、拼音首码、部首及笔画等信息存入MongoDB数据库;步骤三:建立检索系统,实现输入任意字形即可检索出全部异体字的功能;步骤四:异体字库应用于加工系统,在校对异体字时给出系统收录的该字全部异体字字图,并选择与原文献结构一样的字图,统计异体字来源及各字形的使用情况。统计异体字来源及各字形的使用情况。统计异体字来源及各字形的使用情况。

【技术实现步骤摘要】
中文异体字字典库构建与输出利用方法


[0001]本专利技术涉及千分尺
,具体为中文异体字字典库构建与输出利用方法。

技术介绍

[0002]《异体字字典》在系统中存在较多可以替换的字图,特别是形体资料表中存在多图片形式的古籍,在影响系统运作流畅度的同时,并未实现完全意义上的异体字检索;书同文公司的《四库全书》和《四部从刊》,但它们都存在一些回題,集中表现在三个方面:其一,选中“异构字”,不能检索出全部异体字;其二,对于已经收录在经索系统中的异体字,检索也不全面;其三,以GBK字库作支撑,字库有限,大量异体字不在处理范围内,相应的检索统计工作便无法展开;应用检索异体关系。以《异体字字典》为代表主要用于检索异体字与正体字之间的关系,通过汉字间异体关系的梳理达到解释说明汉字音形义的目的;《异体字字典》收录约10万个中文字,收字以教育部公告之标准字体为纲领,陈列文献中所见之相应异体字,为总整汉字字形的大型资料库,可供语文教育及学术研究利用,并可作为电脑中文内码扩编的基础,适用对象为汉字研究者。
[0003]针对古籍中异体字使用情况检索的系统,目前能投入使用的只有书同文公司的《四库全书》和《四部从刊》,能对已经收录在系统中的异体字进行检索以及查看使用情况;《异体字字典》在系统中存在较多可以替换的字图,特别是形体资料表中存在多图片形式的古籍,在影响系统运作流畅度的同时,并未实现完全意义上的异体字检索;书同文公司的《四库全书》和《四部从刊》,但它们都存在一些回題,集中表现在三个方面:其一,选中“异构字”,不能检索出全部异体字;其二,对于已经收录在经索系统中的异体字,检索也不全面;其三,以GBK字库作支撑,字库有限,大量异体字不在处理范围内,相应的检索统计工作便无法展开。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术的不足,本专利技术提供了中文异体字字典库构建与输出利用方法,以解决
技术介绍
中提出的问题。
[0006](二)技术方案
[0007]为实现上述目的,本专利技术提供如下技术方案:中文异体字字典库构建与输出利用方法,包括以下步骤:
[0008]步骤一:搭建加工系统;
[0009]步骤二:从《汉语大字典》正文内容出发并结合我们加工系统校对的海量异体字样本,穷尽式地搜集材料,归纳整理正体字对应的异体字字图集,并把正体字的四角号码、字形、汉语拼音、拼音首码、部首及笔画等信息存入MongoDB数据库;
[0010]步骤三:建立检索系统,实现输入任意字形即可检索出全部异体字的功能;
[0011]步骤四:异体字库应用于加工系统,在校对异体字时给出系统收录的该字全部异
体字字图,并选择与原文献结构一样的字图,统计异体字来源及各字形的使用情况。
[0012]在进一步中优选的是,所述加工系统技术参数如下:
[0013]并发用户数:无并发限制;
[0014]系统采用.net5.0开发,可实现跨平台部署,构建微服务组建模块化开发;
[0015]数据库使用Mongodb非关系型数据保证数据多样性与扩展性;
[0016]采用Consul服务注册与发现;
[0017]采用Ocelot网关限流与熔断。
[0018]在进一步中优选的是,所述步骤三中的检索系统包括概要设计和详细设计,在异体字检索系统中,会涉及到异体字表、书籍信息表、造字表、朝代表等数据表,在此基础上,还包括保存最终检索结果的异体字频次表和异体字出现环境表,本系统采用MongoDB数据库。
[0019]在进一步中优选的是,所述概要设计是对用户需求进行整合、归纳和抽象的过程,首先通过实体属性将各实体与所包含的属性关联起来,然后采用E

R(Entity Relationship)模型将各个实体进行关联,以描述各实体之间的对应关系。
[0020]在进一步中优选的是,所述系统中设计的主要实体属性包括异体字管理、朝代信息管理、书籍信息管理、频次统计结果管理和出现环境统计结果管理。
[0021]在进一步中优选的是,所述详细设计包括异体字表、朝代信息表、文献信息表、频次统计表和出现环境统计表;
[0022]异体字表中包含了整理得到的全部异体字信息,其中每个异体字由一个正体字和多个异体字或者只是异体字组成。
[0023]在进一步中优选的是,所述步骤三中的检索系统还包括检索功能设计,其包括异体字组查询流程和异体字检索流程。
[0024](三)有益效果
[0025]与现有技术相比,本专利技术提供了中文异体字字典库构建与输出利用方法,具备以下有益效果:
[0026]系统地整理《汉语大字典(第二版)》中的全同异体关系,通过对Unicode中尚未收录汉字的新造处理,生成完全意义上的文本型电子异体字表;
[0027]通过异体字组内的关联,达到输入任意字形即可快速检索出全部异体字的功能,实现真正意义上的异体字检索;
[0028]建立古籍中异体字使用情况检索数据库,显示异体字出现的语言环境、文本信息及来源,统计异体字组中各字形的使用情况;
[0029]异体字库应用于人工智能加工系统,统计异体字来源及各字形的使用情况。
附图说明
[0030]图1为本专利技术中中文异体字字典库构建与输出利用方法中异体字组查询流程图;
[0031]图2为本专利技术中中文异体字字典库构建与输出利用方法中异体字检索流程图;
[0032]图3为本专利技术中中文异体字字典库构建与输出利用方法中检索系统E

R图。
具体实施方式
[0033]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0034]实施例一:
[0035]请参阅图1

3,中文异体字字典库构建与输出利用方法,包括以下步骤:
[0036]步骤一:搭建加工系统;
[0037]步骤二:从《汉语大字典》正文内容出发并结合我们加工系统校对的海量异体字样本,穷尽式地搜集材料,归纳整理正体字对应的异体字字图集,并把正体字的四角号码、字形、汉语拼音、拼音首码、部首及笔画等信息存入MongoDB数据库;
[0038]步骤三:建立检索系统,实现输入任意字形即可检索出全部异体字的功能;
[0039]步骤四:异体字库应用于加工系统,在校对异体字时给出系统收录的该字全部异体字字图,并选择与原文献结构一样的字图,统计异体字来源及各字形的使用情况。
[0040]在本实施例中,加工系统技术参数如下:
[0041]并发用户数:无并发限制。
[0042]系统采用.net5.0开发,可实现跨平台部署,构建微服务组建模块化开发。
[004本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.中文异体字字典库构建与输出利用方法,包括以下步骤:步骤一:搭建加工系统;步骤二:从《汉语大字典》正文内容出发并结合我们加工系统校对的海量异体字样本,穷尽式地搜集材料,归纳整理正体字对应的异体字字图集,并把正体字的四角号码、字形、汉语拼音、拼音首码、部首及笔画等信息存入MongoDB数据库;步骤三:建立检索系统,实现输入任意字形即可检索出全部异体字的功能;步骤四:异体字库应用于加工系统,在校对异体字时给出系统收录的该字全部异体字字图,并选择与原文献结构一样的字图,统计异体字来源及各字形的使用情况。2.根据权利要求1所述的中文异体字字典库构建与输出利用方法,其特征在于:所述加工系统技术参数如下:并发用户数:无并发限制;系统采用.net5.0开发,可实现跨平台部署,构建微服务组建模块化开发;数据库使用Mongodb非关系型数据保证数据多样性与扩展性;采用Consul服务注册与发现;采用Ocelot网关限流与熔断。3.根据权利要求1所述的中文异体字字典库构建与输出利用方法,其特征在于:所述步骤三中的检索系统包括概要设计和详细设计,在异体字检索系统中,会涉及到异体字表、书籍信息表、造字表、朝代表等数据表...

【专利技术属性】
技术研发人员:张嘉骏
申请(专利权)人:福建两岸信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1