一种基于词表的中医古籍新词发现和本体构建系统技术方案

技术编号:34484987 阅读:131 留言:0更新日期:2022-08-10 09:02
本发明专利技术公开了一种基于词表的中医古籍新词发现和本体构建系统,包括:基于词表的中医古籍新词发现和本体构建系统,基于中医古籍的专业术语词表、后控词表,结合当下计算机分词技术和算法,识别中医古籍文本中的知识术语并进行属性定义,发现中医古籍新词,定义词和术语的属性分类,从而来完善现有术语词表。基于古籍文本术语及其属性分类间关系,对中医古籍文本进行词频和共现分析,发现中医古籍术语关系及知识关联。基于词表和术语实现对中医古籍文本的数据清洗和标准化,自动建立基于中医古籍文本的知识本体,本发明专利技术为中医本体研究提供了数据基础,为中医数据挖掘分析提供了标准和规范的知识库。规范的知识库。规范的知识库。

【技术实现步骤摘要】
一种基于词表的中医古籍新词发现和本体构建系统


[0001]本专利技术属于中医术语提取、中医术语规范和标准化
,特别是涉及一种基于词表的中医古籍新词发现和本体构建系统。

技术介绍

[0002]中医古籍是我国宝贵的科技遗产,是中医药学传承两千多年绵延至今的重要知识载体,是现代中医药科技创新和学术进步的源头和根基,较之其他学科的古籍更具有学术价值和实用价值,其所记载的经典理论、学术思想、方药、诊疗方法、医案医论、养生保健方法等是中医药学知识的重要载体,至今仍广泛应用。当前对中医古籍中术语提取、属性和关系定义仍多依靠人工审核方式,工作效率较低。如何针对古代行文以及中医古籍术语、语义等特点,利用现代信息处理技术进行计算机辅助分词与新词发现是重要的研究方向,也是推进中医古籍术语规范化、中医古籍数据挖掘分析研究工作的基础。

技术实现思路

[0003]本专利技术的目的是提供一种基于词表的中医古籍新词发现和本体构建系统,以解决上述现有技术存在的问题。
[0004]为实现上述目的,本专利技术提供了一种基于词表的中医古籍新词发现和本体构本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于词表的中医古籍新词发现和本体构建系统,其特征在于,包括:古籍文本输入模块、数据清洗模块、计算机分词模块、新词发现模块、关系发现模块、语义描述文件生成模块;所述古籍文本输入模块用于导入或手动添加文本数据,基于所述文本数据创建古籍数据;还用于对所述文本数据进行分段处理;所述数据清洗模块用于对所述古籍数据中的同义词、异名词进行标准化处理;所述计算机分词模块用于基于术语词表,采用计算机分词技术对所述古籍数据中待分词的文本进行分词处理,获取分词处理结果;所述新词发现模块用于完善所述术语词表,并与所述计算机分词处理模块相互迭代,完善分词处理过程;所述关系发现模块用于对中医古籍文本数据中的术语词进行关系发现及知识关联;所述语义描述文件生成模块用于基于关系发现后的文本数据生成语义描述文件。2.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统,其特征在于:所述中医古籍文本数据为加工完成后的古籍文本数据。3.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统,其特征在于:所述数据清洗模块基于后控词表进行标准化处理;所述后控词表为标识各类术语词之间关系的词表,包括正名词、异名词以及自定义术语词。4.根据权利要求书1所述的一种基于词表的中医古籍新词发现和本体构建系统,其特征在于:所述计算机分词处理模块基于自定义字典发现术语词,所述自定义字典基于所述术语词表中的大类生成;所述大类包括:病、因机、证...

【专利技术属性】
技术研发人员:李兵张华敏张伟娜刘思鸿李斌董燕侯酉娟李莎莎
申请(专利权)人:中国中医科学院中药研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1