一种古汉语语义分析方法及其系统技术方案

技术编号:16755545 阅读:44 留言:0更新日期:2017-12-09 02:04
本发明专利技术提供一种古汉语语义分析方法,包括步骤获取古汉语语句、词元划分、词元翻译、语义拼接、语义检查;本发明专利技术还提供一种古汉语语义分析系统,包括配置库、分析模块;配置库包括古汉语词典库;古汉语词典库包括词元释义;分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块;本发明专利技术采用词元划分将古汉语语句划分为若干词元,获取古汉语词典库中的词元释义,后将若干词元释义拼接成古汉语初始语义,最终将古汉语初始语义与现代汉语语义模板进行匹配检查,解决古汉语语义的分析问题;本发明专利技术逻辑缜密,方法高效实用,打破古汉语分析缺乏稳定性的难题,便于古汉语语义的规则化分析与实现。

An ancient Chinese semantic analysis method and its system

The present invention provides an analysis method for ancient Chinese semantics, which comprises the following steps of ancient Chinese language, word element division, words translation, semantic splicing, semantic check; the invention also provides an ancient Chinese semantic analysis system, including the configuration database, analysis module; the repository includes ancient Chinese dictionary; ancient Chinese Dictionary includes the word element definitions; analysis module including partition module, translation module, splicing module, check module, output module; the invention adopts the ancient Chinese sentence word division is divided into several words, for the ancient Chinese dictionary in the library Yuanshi word meaning, word elements will be spliced into the interpretation of ancient Chinese initial semantics, will eventually the matching test of ancient Chinese and modern Chinese initial semantic semantic template, analyze and solve problems in ancient Chinese semantics; the logical, efficient and practical method, break the ancient Chinese The analysis of language is not a problem of stability, so it is easy to analyze and implement the semantic rules of ancient Chinese.

【技术实现步骤摘要】
一种古汉语语义分析方法及其系统
本专利技术涉及语义分析,尤其涉及一种古汉语语义分析方法及其系统。
技术介绍
古汉语是我国古代文化的重要载体,正确解读古汉语成为人们研究分析古代文化的关键途径;目前,有不少学者对古汉语的语义分析展开研究,其中基于统计学规律的分析方法,利用统计大量的古汉语分析数据得出一定的分析规律来辅助古汉语分析释义,但统计规律很大程度上是基于经验主义的分析方法,通过归总古汉语的形式形态的出现频率,指导古汉语分析。但因古汉语表现形式丰富,释义不一,无法确保语义分析的稳定性与一致性。
技术实现思路
为了克服现有技术的不足,本专利技术的目的在于提供一种古汉语语义分析方法及其系统。本专利技术提供一种古汉语语义分析方法,包括以下步骤:获取古汉语语句,用户端上传待分析的古汉语信息,获取以完整句为最小输入单元的古汉语语句;词元划分,获取古汉语语句中词元,所述的词元为最小的语义单元,将所述古汉语语句中的词元顺序存储于词元栈中;词元翻译,获取所述的词元栈,检索查找古汉语词典库中的词元释义,建立所述词元的释义关系映射;语义拼接,获取所述词元的释义关系映射,排列组合各所述词元的的释义,得到古汉语初始语义;语义检查,获取所述古汉语初始语义,匹配现代汉语语义模板,匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义;匹配不成功则返回语义拼接;语义输出,输出待输出语义。进一步地,所述的古汉语语义分析方法还包括朝代匹配,所述的朝代匹配位于词元翻译与语义拼接之间;所述的词元释义中包括词元朝代信息;所述的朝代匹配具体为获取所述词元栈中词元朝代信息,统计得到词元栈中频率最高的词元朝代,并对所述词元的释义关系映射按照词元朝代信息排序,高频率的词元朝代的词元释义位于低频率的词元朝代的词元释义之前。进一步地,所述的古汉语语义分析方法还包括句式匹配,所述的句式匹配位于朝代匹配与语义拼接之间;所述的句式匹配具体为根据朝代建立句式库,获取所述的频率最高的词元朝代,得到所述的频率最高的词元朝代的语义句式,所述语义句式为所述词元的关系链表,根据所述的语义句式对所述的词元栈中的词元进行重新排序。进一步地,所述的古汉语词典库包括词元典故,所述的语义检查还包括词元典故检查,匹配现代汉语语义模板后,对所述的古汉语初始语义与所述的词元典故进行匹配,匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义;匹配不成功则返回语义拼接。进一步地,所述的古汉语语义分析方法还包括语义自学习,所述的语义自学习统计并记录所述的词元释义的频率、词元朝代频率、句式频率,根据所述的释义的频率、词元朝代频率、句式频率排序下一所述的古汉语语句中相同词元的词元释义、词元朝代、句式。本专利技术还提供一种古汉语语义分析系统,包括配置库、分析模块;所述的配置库包括古汉语词典库;所述的古汉语词典库包括词元释义;所述的分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块;所述的划分模块用于将古汉语语句划分为若干词元;所述的翻译模块用于获取所述的古汉语词典库中的词元释义;所述的拼接模块用于将若干所述的词元释义拼接成古汉语初始语义;所述的检查模块用于将所述的古汉语初始语义与现代汉语语义模板进行匹配检查,匹配成功则将所述的古汉语初始语义传输至所述的输出模块输出;匹配不成功则丢弃所述的古汉语初始语义,所述的拼接模块重新拼接。进一步地,所述的配置库还包括朝代库;所述的朝代库内存储的朝代信息关联所述的古汉语词典库内的词元释义;所述的古汉语词典库还包括词元典故,所述的词元典故内存储有词元的典故信息;所述的检查模块对所述的古汉语初始语义与所述的词元典故进行匹配,匹配成功则将古汉语初始语义存储至所述的输出模块的输出缓存区得到待输出语义;匹配不成功则返回至所述的拼接模块进行语义拼接。进一步地,所述的配置库还包括句式库,所述的句式库包括朝代句式库与现代句式库;所述的朝代句式库内存储的句式信息关联所述的朝代库内存储的朝代信息;所述的现代句式库用于存储所述的现代汉语语义模板。进一步地,所述的分析模块还包括匹配模块;所述的匹配模块包括朝代匹配模块与句式匹配模块;所述的朝代匹配模块用于获取词元的朝代信息,统计得到频率最高的词元朝代,并对词元的释义关系映射按照词元朝代信息排序;所述的句式匹配模块用于根据朝代句式库,获取所述的频率最高的词元朝代,得到所述的频率最高的词元朝代的语义句式,根据所述的语义句式对词元进行排序。进一步地,所述的分析模块还包括自学习模块;所述的自学习模块用于统计并记录词元释义的频率、词元朝代频率、句式频率,根据所述的词元释义的频率、词元朝代频率、句式频率排序下一古汉语语句中相同词元的词元释义、词元朝代、句式。相比现有技术,本专利技术的有益效果在于:本专利技术提供一种古汉语语义分析方法,包括步骤获取古汉语语句、词元划分、词元翻译、语义拼接、语义检查;本专利技术还提供一种古汉语语义分析系统,包括配置库、分析模块;配置库包括古汉语词典库;古汉语词典库包括词元释义;分析模块包括划分模块、翻译模块、拼接模块、检查模块、输出模块;本专利技术采用词元划分将古汉语语句划分为若干词元,获取古汉语词典库中的词元释义,后将若干词元释义拼接成古汉语初始语义,最终将古汉语初始语义与现代汉语语义模板进行匹配检查,解决古汉语语义的分析问题;本专利技术逻辑缜密,方法高效实用,打破古汉语分析缺乏稳定性的难题,便于古汉语语义的规则化分析与实现。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为本专利技术的一种古汉语语义分析方法流程示意图;图2为本专利技术的一种古汉语语义分析系统框架示意图。具体实施方式下面,结合附图以及具体实施方式,对本专利技术做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。一种古汉语语义分析方法,如图1所示,包括以下步骤:获取古汉语语句,用户端上传待分析的古汉语信息,获取以完整句为最小输入单元的古汉语语句;一般的,用户上传整篇古汉语文章,以“。”、“?”、“!”等断句符号作为断句标识,对文章划分为单独的古汉语语句,并存储至古汉语文章的数据链表中。词元划分,获取古汉语语句中词元,词元为最小的语义单元,将古汉语语句中的词元顺序存储于词元栈中;对古汉语语句中的各个词元进行划分,将整句划分为若干独立词元,其中重复词元可重复记录,也可定义词元出现次数。词元翻译,获取词元栈,检索查找古汉语词典库中的词元释义,建立词元的释义关系映射;依次检查词元栈中各词元在古汉语词典库中的词元释义,一般的,词元释义为多重释义即含义不唯一,建立词元与词元释义的超链接,并将词元释义中的各释义存至释义队列中。朝代匹配,词元释义中包括词元朝代信息;朝代匹配具体为获取词元栈中词元朝代信息,统计得到词元栈中频率最高的词元朝代,并对词元的释义关系映射按照词元朝代信息排序,对释义队列中的各释义进行重新排列,高频率的本文档来自技高网...
一种古汉语语义分析方法及其系统

【技术保护点】
一种古汉语语义分析方法,其特征在于,包括以下步骤:获取古汉语语句,用户端上传待分析的古汉语信息,获取以完整句为最小输入单元的古汉语语句;词元划分,获取古汉语语句中词元,所述的词元为最小的语义单元,将所述古汉语语句中的词元顺序存储于词元栈中;词元翻译,获取所述的词元栈,检索查找古汉语词典库中的词元释义,建立所述词元的释义关系映射;语义拼接,获取所述词元的释义关系映射,排列组合各所述词元的的释义,得到古汉语初始语义;语义检查,获取所述古汉语初始语义,匹配现代汉语语义模板,匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义;匹配不成功则返回语义拼接;语义输出,输出待输出语义。

【技术特征摘要】
1.一种古汉语语义分析方法,其特征在于,包括以下步骤:获取古汉语语句,用户端上传待分析的古汉语信息,获取以完整句为最小输入单元的古汉语语句;词元划分,获取古汉语语句中词元,所述的词元为最小的语义单元,将所述古汉语语句中的词元顺序存储于词元栈中;词元翻译,获取所述的词元栈,检索查找古汉语词典库中的词元释义,建立所述词元的释义关系映射;语义拼接,获取所述词元的释义关系映射,排列组合各所述词元的的释义,得到古汉语初始语义;语义检查,获取所述古汉语初始语义,匹配现代汉语语义模板,匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义;匹配不成功则返回语义拼接;语义输出,输出待输出语义。2.如权利要求1所述的一种古汉语语义分析方法,其特征在于:所述的古汉语语义分析方法还包括朝代匹配,所述的朝代匹配位于词元翻译与语义拼接之间;所述的词元释义中包括词元朝代信息;所述的朝代匹配具体为获取所述词元栈中词元朝代信息,统计得到词元栈中频率最高的词元朝代,并对所述词元的释义关系映射按照词元朝代信息排序,高频率的词元朝代的词元释义位于低频率的词元朝代的词元释义之前。3.如权利要求2所述的一种古汉语语义分析方法,其特征在于:所述的古汉语语义分析方法还包括句式匹配,所述的句式匹配位于朝代匹配与语义拼接之间;所述的句式匹配具体为根据朝代建立句式库,获取所述的频率最高的词元朝代,得到所述的频率最高的词元朝代的语义句式,所述语义句式为所述词元的关系链表,根据所述的语义句式对所述的词元栈中的词元进行重新排序。4.如权利要求1所述的一种古汉语语义分析方法,其特征在于:所述的古汉语词典库包括词元典故,所述的语义检查还包括词元典故检查,匹配现代汉语语义模板后,对所述的古汉语初始语义与所述的词元典故进行匹配,匹配成功则将古汉语初始语义存储至输出缓存区得到待输出语义;匹配不成功则返回语义拼接。5.如权利要求3所述的一种古汉语语义分析方法,其特征在于:所述的古汉语语义分析方法还包括语义自学习,所述的语义自学习统计并记录所述的词元释义的频率、词元朝代频率、句式频率,根据所述的释义的频率、词元朝代频率、句式频率排序下一所述的古汉语语句中相同词元的词元释义、词元朝代、...

【专利技术属性】
技术研发人员:熊卫
申请(专利权)人:广州尚恩科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1