一种中医典籍知识库反馈修正方法及系统技术方案

技术编号:39824806 阅读:7 留言:0更新日期:2023-12-29 15:59
本发明专利技术提供了一种中医典籍知识库反馈修正方法及系统,涉及数据处理技术领域,包括:获取基于多本中医典籍构建的中医知识库,包括多个典籍词和多个知识词的映射关系,构建中医典籍词袋,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,获取多个知识词向量簇,训练中医典籍识别器,对多个典籍词进行识别,并进行聚类,获取多个典籍词向量簇,计算获取多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈

【技术实现步骤摘要】
一种中医典籍知识库反馈修正方法及系统


[0001]本专利技术涉及数据处理
,具体涉及一种中医典籍知识库反馈修正方法及系统


技术介绍

[0002]由于中医典籍数量众多且内容复杂,在传统的中医典籍知识库中,存在一些常见情况和问题,一方面,中医典籍包括众多古籍

方剂书籍和医案等,这些典籍的内容形式和表达方式各不相同,并且由于语义复杂,这些知识的挖掘

整理非常困难;另一方面,由于中医典籍的历史悠久,并且缺乏知识转化

应用的手段,这些知识应用于临床实践的作用也非常有限;同时,一些传统中医典籍的描述方式可能与现代医学的标准不一致,其中的信息可能存在着错误

冗余

模糊或缺失

这导致传统的中医典籍知识库存在一定的局限性

因此,需要一种中医典籍知识库反馈修正方法,来对知识库进行修正,提高知识库的准确性

完整性和知识组织效果


技术实现思路

[0003]本申请通过提供了一种中医典籍知识库反馈修正方法及系统,旨在解决传统的中医典籍知识库存在对于中医典籍中部分词的理解不准,导致知识库的准确率较低

质量较差的技术问题

[0004]鉴于上述问题,本申请提供了一种中医典籍知识库反馈修正方法及系统

[0005]本申请公开的第一个方面,提供了一种中医典籍知识库反馈修正方法,所述方法包括:获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;基于所述中医知识库,构建中医典籍词袋;按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈

[0006]本申请公开的另一个方面,提供了一种中医典籍知识库反馈修正系统,所述系统用于上述方法,所述系统包括:知识库获取模块,所述知识库获取模块用于获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;典籍词袋构建模块,所述典籍词袋构建模块用于基于所述中医知识库,构建中医典籍词袋;第一聚类模块,所述第一聚类模块用于按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;第二聚类模块,所述第二聚类模块用于训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚
类,获取多个样本病症的多个典籍词向量簇;匹配度计算模块,所述匹配度计算模块用于根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;反馈模块,所述反馈模块用于根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈

[0007]本申请中提供的一个或多个技术方案,至少具有如下技术效果或优点:
[0008]通过基于多本中医典籍构建的中医知识库,并结合多个典籍词和知识词的映射关系,可以对知识库进行修正和补充,提高知识库的准确性和完整性;通过按照多个样本病症和症状集的索引关系对知识词进行聚类,可以获得多个样本病症的多个知识聚类结果,同时,基于典籍词袋和典籍识别器的训练,可以对典籍词进行识别和聚类,得到多个样本病症的多个典籍词向量簇,这样可以改善知识聚类的粒度和一致性,使得相关的知识词能够被聚集在一起;通过使用数量匹配度和向量匹配度计算,结合典籍词向量簇和知识词向量簇,可以获得多个匹配度来衡量样本与知识库中的不同聚类结果之间的匹配程度;根据多个匹配度,进行决策获取对知识聚类结果内的知识词进行修正的修正等级,并进行反馈,这样可以指导对知识聚类结果进行修正操作,提高知识库的质量和准确度

综上所述,该中医典籍知识库反馈修正方法提升了中医典籍知识库的准确性

完整性

粒度和一致性,进而达到提高知识库质量的技术效果

[0009]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的

特征和优点能够更明显易懂,以下特举本申请的具体实施方式

附图说明
[0010]图1为本申请实施例提供了一种中医典籍知识库反馈修正方法流程示意图;
[0011]图2为本申请实施例提供了一种中医典籍知识库反馈修正系统结构示意图

[0012]附图标记说明:知识库获取模块
10
,典籍词袋构建模块
20
,第一聚类模块
30
,第二聚类模块
40
,匹配度计算模块
50
,反馈模块
60。
具体实施方式
[0013]本申请实施例通过提供一种中医典籍知识库反馈修正方法,解决了传统的中医典籍知识库存在对于中医典籍中部分词的理解不准,导致知识库的准确率较低

质量较差的技术问题

[0014]在介绍了本申请基本原理后,下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式

[0015]实施例一
[0016]如图1所示,本申请实施例提供了一种中医典籍知识库反馈修正方法,所述方法包括:
[0017]获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;
[0018]收集多本中医典籍的文本数据,这些典籍为医疗学者自己阅读中医典籍,包括古代医书

经典著作等

对收集到的典籍文本进行预处理,例如去除标点符号

停用词等,以准
备后续的分析和处理

使用自然语言处理技术,如分词等方法,从典籍文本中提取出典籍词和知识词,其中,典籍词是典籍中特定的术语

词语,知识词是将典籍中的内容理解转化为现代词

根据典籍词和知识词的提取结果,建立它们之间的映射关系,映射关系指示了典籍词和知识词之间的对应关系

基于多个典籍词和多个知识词的映射关系,获取基于多本中医典籍构建的中医知识库,这个知识库将作为后续步骤中的基础,用于进一步分析

聚类和修正中医知识
。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种中医典籍知识库反馈修正方法,其特征在于,所述方法包括:获取基于多本中医典籍构建的中医知识库,所述中医知识库内包括多个典籍词和多个知识词的映射关系;基于所述中医知识库,构建中医典籍词袋;按照多个样本病症和多个样本症状集的索引关系,对多个知识词进行聚类,获得多个样本病症的多个知识聚类结果,并基于所述中医典籍词袋,获取多个知识词向量簇;训练中医典籍识别器,对所述多个典籍词进行识别,并按照多个样本病症和多个样本症状集的索引关系,进行聚类,获取多个样本病症的多个典籍词向量簇;根据所述多个典籍词向量簇和多个知识词向量簇,计算获取多个匹配度,其中,每个匹配度基于数量匹配度和向量匹配度计算;根据多个匹配度,决策获取对多个知识聚类结果内的知识词进行修正的修正等级,进行反馈
。2.
根据权利要求1所述的方法,其特征在于,所述方法包括:根据所述多个典籍词和多个知识词的数量,构建
N
位寄存器,
N
为多个典籍词和多个知识词的数量;基于所述
N
位寄存器,对所述多个知识词分配获得多个词向量;根据多个词向量,构建所述中医典籍词袋
。3.
根据权利要求1所述的方法,其特征在于,所述方法包括:基于预设时间范围内的中医知识库调用数据,获取所述多个样本病症的知识词的调用次数;基于多个调用次数,分配对多个样本病症对应的典籍识别分支进行训练的多个训练资源,每个训练资源内包括典籍识别通道的训练数量;基于中医典籍翻译数据,按照所述多个样本病症,划分获取多个样本典籍词集合和多个样本知识词集合;分别采用所述多个样本典籍词集合和多个样本知识词集合作为训练数据,按照多个训练资源,训练获取多个典籍识别分支,获得所述中医典籍识别器;采用所述中医典籍识别器,对所述多个典籍词进行识别,获得多个识别结果集,选择每个识别结果集内出现频率最大的知识词,获得多个标准知识词;对多个标准知识词进行聚类,结合中医典籍词袋,获得多个典籍词向量簇
。4.
根据权利要求3所述的方法,其特征在于,所述方法包括:按照所述多个训练资源内的训练数量,分别构建多个典籍识别分支,每个典籍识别分支内包括对应训练数量的典籍识别通道;采用多个样本典籍词集合和多个样本知识词集合内的第一样本典籍词集合和第一样本知识词集合,按照第一训练次数,对第一典籍识别分支内的第一典籍识别通道进行训练,并测试获得第一准确率;根据第一准确率和准确率阈值的偏差,在偏差对照表内进行匹配,获得第...

【专利技术属性】
技术研发人员:李文友赵静沈新樊静朱琼尚卫兵尹杰
申请(专利权)人:南京大经中医药信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1