中文异体字字典库构建与输出利用方法技术

技术编号：38320041 阅读：11 留言：0更新日期：2023-07-29 09:02

本发明专利技术涉及中文异体字字典库构建与输出利用方法，包括以下步骤：步骤一：搭建加工系统；步骤二：从《汉语大字典》正文内容出发并结合我们加工系统校对的海量异体字样本，穷尽式地搜集材料，归纳整理正体字对应的异体字字图集，并把正体字的四角号码、字形、汉语拼音、拼音首码、部首及笔画等信息存入MongoDB数据库；步骤三：建立检索系统，实现输入任意字形即可检索出全部异体字的功能；步骤四：异体字库应用于加工系统，在校对异体字时给出系统收录的该字全部异体字字图，并选择与原文献结构一样的字图，统计异体字来源及各字形的使用情况。统计异体字来源及各字形的使用情况。统计异体字来源及各字形的使用情况。

全部详细技术资料下载

【技术实现步骤摘要】
中文异体字字典库构建与输出利用方法

[0001]本专利技术涉及千分尺
，具体为中文异体字字典库构建与输出利用方法。

技术介绍

[0002]《异体字字典》在系统中存在较多可以替换的字图，特别是形体资料表中存在多图片形式的古籍，在影响系统运作流畅度的同时，并未实现完全意义上的异体字检索；书同文公司的《四库全书》和《四部从刊》，但它们都存在一些回題，集中表现在三个方面：其一，选中“异构字”，不能检索出全部异体字；其二，对于已经收录在经索系统中的异体字，检索也不全面；其三，以GBK字库作支撑，字库有限，大量异体字不在处理范围内，相应的检索统计工作便无法展开；应用检索异体关系。以《异体字字典》为代表主要用于检索异体字与正体字之间的关系，通过汉字间异体关系的梳理达到解释说明汉字音形义的目的；《异体字字典》收录约10万个中文字，收字以教育部公告之标准字体为纲领，陈列文献中所见之相应异体字，为总整汉字字形的大型资料库，可供语文教育及学术研究利用，并可作为电脑中文内码扩编的基础，适用对象为汉字研究者。
[0003]针对古籍中异体字使用情况检索的系统，目前能投入使用的只有书同文公司的《四库全书》和《四部从刊》，能对已经收录在系统中的异体字进行检索以及查看使用情况；《异体字字典》在系统中存在较多可以替换的字图，特别是形体资料表中存在多图片形式的古籍，在影响系统运作流畅度的同时，并未实现完全意义上的异体字检索；书同文公司的《四库全书》和《四部从刊》，但它们都存在一些回題，集中表现在三个方面：其一，选中“异构字”，不能检索出全部...

【技术保护点】

【技术特征摘要】
1.中文异体字字典库构建与输出利用方法，包括以下步骤：步骤一：搭建加工系统；步骤二：从《汉语大字典》正文内容出发并结合我们加工系统校对的海量异体字样本，穷尽式地搜集材料，归纳整理正体字对应的异体字字图集，并把正体字的四角号码、字形、汉语拼音、拼音首码、部首及笔画等信息存入MongoDB数据库；步骤三：建立检索系统，实现输入任意字形即可检索出全部异体字的功能；步骤四：异体字库应用于加工系统，在校对异体字时给出系统收录的该字全部异体字字图，并选择与原文献结构一样的字图，统计异体字来源及各字形的使用情况。2.根据权利要求1所述的中文异体字字典库构建与输出利用方法，其特征在于：所述加工系统技术参数如下：并发用户数：无并发限制；系统采用.net5.0开发，可实现跨平台部署，构建微服务组建模块化开发；数据库使用Mongodb非关系型数据保证数据多样性与扩展性；采用Consul服务注册与发现；采用Ocelot网关限流与熔断。3.根据权利要求1所述的中文异体字字典库构建与输出利用方法，其特征在于：所述步骤三中的检索系统包括概要设计和详细设计，在异体字检索系统中，会涉及到异体字表、书籍信息表、造字表、朝代表等数据表...

【专利技术属性】
技术研发人员：张嘉骏，
申请(专利权)人：福建两岸信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人