【技术实现步骤摘要】
结合知识图谱的中医典籍语义分析方法及系统
[0001]本公开涉及语义分析
,具体涉及结合知识图谱的中医典籍语义分析方法及系统
。
技术介绍
[0002]中医典籍中蕴含着大量宝贵的重大疾病防治康养知识
。
但由于语义复杂,对疾病防治康养知识的挖掘
、
整理非常困难
。
且由于缺乏知识转化
、
应用的手段,疾病防治康养知识应用于临床
、
指导临床实践的作用也非常有限
。
目前,现有的分析中医典籍语义的方法大多为人工进行分析,导致语义分析的效率低下
。
综上所述,现有技术中存在由于中医典籍语义分析精确度和效率较低,导致中医典籍的疾病防治知识的整理和应用效率较低的技术问题
。
技术实现思路
[0003]本公开提供了结合知识图谱的中医典籍语义分析方法及系统,用以解决现有技术中存在由于中医典籍语义分析精确度和效率较低,导致中医典籍的疾病防治知识的较低的整理和应用的效率较低的技术问题
。
[0004]根据本公开的第一方面,提供了结合知识图谱的中医典籍语义分析方法,包括:采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集 ...
【技术保护点】
【技术特征摘要】
1.
结合知识图谱的中医典籍语义分析方法,其特征在于,所述方法包括:采集获取待进行语义分析的目标中医典籍数据,对所述目标中医典籍数据进行文字提取,得到原始中医典籍文字;基于异形字映射关联数据库构建第一知识图谱,对所述原始中医典籍文字进行异形自识别并替换,获得第一修正中医典籍文字;基于数据挖掘技术采集获取异形字校正后的第一古汉语样本集合和进行现代汉语转换后的现代汉语样本集合;根据所述现代汉语样本集合对所述第一古汉语样本集合进行词语关联关系识别,获得第二知识图谱;通过所述第二知识图谱对所述第一修正中医典籍文字进行现代汉语转换,得到第一转换文字;基于所述第一转换文字进行典籍类型识别得到目标典籍类型,以所述第一转换文字和目标典籍类型组成所述目标中医典籍数据的语义分析结果
。2.
如权利要求1所述的方法,其特征在于,所述对所述目标中医典籍数据进行文字提取,包括:基于所述目标中医典籍数据的数据类型,设置结构化文字识别通道和非结构化文字识别通道;通过所述结构化文字识别通道和非结构化文字识别通道对所述目标中医典籍数据进行文字提取,获得第一文字提取结果,所述第一文字提取结果具有提取成功标识或提取失败标识;当所述第一文字提取结果具有提取失败标识时,启动人机交互模块,通过所述人机交互模块对所述目标中医典籍数据进行生僻字信息的补充;根据所述生僻字信息对所述结构化文字识别通道和非结构化文字识别通道进行反馈优化;利用反馈优化后的结构化文字识别通道和非结构化文字识别通道对所述目标中医典籍数据重新进行文字提取,获得所述原始中医典籍文字
。3.
如权利要求2所述的方法,其特征在于,所述方法还包括:通过所述人机交互模块对所述生僻字信息进行异形字分析和语义分析,获得异形字分析结果和语义分析结果;利用所述异形字分析结果和所述语义分析结果对所述第一知识图谱
、
第二知识图谱进行反馈优化
。4.
如权利要求1所述的方法,其特征在于,所述基于异形字映射关联数据库构建第一知识图谱,还包括:基于数据挖掘技术采集获取带有异形字的第二古汉语样本集合
、
异形字校正后的第三古汉语样本集合;基于所述第二古汉语样本集合提取异形字段集合,所述异形字段集合具有异形字标识;根据所述异形字段集合的异形字标识在所述第三古汉语样本集合提取对应的校正字,建立所述校正字与所述异形字段集合的映射关系,构建所述异形字映射关联数据库
。
5.
如权利要求4所述的方法,其特征在于,所述方法还包括:基于所述异形字映射关联数据库构建所述第一知识图谱;将所述...
【专利技术属性】
技术研发人员:李文友,赵静,沈新,樊静,朱琼,尚卫兵,尹杰,
申请(专利权)人:南京大经中医药信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。