本发明专利技术涉及数据管理技术领域,公开了中医古籍知识图谱构建用数据管理系统,包括:数据采集单元、信息储存单元、图谱处理单元、融合显示单元。该中医古籍知识图谱构建用数据管理系统,通过设置图谱处理单元,可以实现知识内容文本自动化处理,同时实现知识图谱模型的自主搭建;通过在知识图谱模型与信息储存单元构建相应的提取通道,利用提取通道为知识图谱模型提供知识内容文本信息,使得用户可以依据知识图谱模型中结构化的海量标记数据,从内容存储池中提取非结构化的内容文本,可有效地对内容文本进行结构化展示,解决了现有技术中相同实体文本重复显现,导致知识图谱模型的内存占有量过大的问题。
【技术实现步骤摘要】
本专利技术涉及数据管理,具体为中医古籍知识图谱构建用数据管理系统。
技术介绍
1、从古至今,中医领域积累了大量的医学理论典籍,这些典籍采用古文言文的形式,且大多是非结构化的文本,而目前没有对中医理论典籍知识的结构化认识,如何将这些蕴含在中医理论典籍中的海量资源进行梳理并利用,已成为中医领域一个关注的热点问题。
2、知识图谱是描述真实世界中存在的各种概念或实体,以及各种实体、概念之间的关系。本质上是将领域知识数据体系化、关系化的语义网络,是一种基于图的数据结构。通俗来说,知识图谱是基于信息系统建立的知识库,根据提取的实体间关系通过可视化技术把复杂知识领域系统地展示出来。
3、目前中医领域的知识图谱的应用很少,尤其是针对中医理论典籍这一类描述中医认识方法和辨证论治的理论书籍的知识图谱,因此本申请提出一种中医古籍知识图谱构建用数据管理系统,本专利技术通过知识图谱在中医理论典籍的应用,能够实现对中医理论知识的共建、共享及重用。
技术实现思路
1、针对现有技术的不足,本专利技术提供了中医古籍知识图谱构建用数据管理系统,解决了
技术介绍
中所提出的问题。
2、为实现以上目的,本专利技术通过以下技术方案予以实现:中医古籍知识图谱构建用数据管理系统,包括:
3、数据采集单元,用于从中医古籍知识资料中获取多个知识内容文本,随后将知识内容文本传输至信息储存单元;
4、信息储存单元,其包含多个内存存储池,且信息储存单元用于存储若干个知识内容文本;</p>5、图谱处理单元,用于依据预设的属性样本集及其对应的多个属性样本构建知识图谱模型,接着将知识内容文本导入预训练的属性提炼模型中,得到相应的提炼编码和属性标记,随后依据属性标记将提炼编码导入知识图谱模型中,并依据提炼编码在知识图谱模型和内存存储池之间构建相应的提取通道,其中,提炼编码为预先设置的唯一id编码参数,属性标记表示为对知识内容文本中涵盖的内容作出的特征标记;
6、融合显示单元,用于依据提取通道从内存存储池获取知识内容文本,并将其与知识图谱模型融合形成中医古籍知识图谱。
7、作为本专利技术进一步的方案:所述信息储存单元中的内存存储池数量依据数据采集单元获取知识内容文本的数量生成,且各个知识内容文本分别存储至相应的内容存储池中;
8、作为本专利技术进一步的方案:其中,知识图谱模型依据树状图构建方式搭建生成。
9、作为本专利技术进一步的方案:在知识图谱模型搭建过程中,一个属性样本集对应构建一个检索管理区,且一个属性样本集的多个属性样本对应构建多个检索标记文本。
10、作为本专利技术进一步的方案:所述图谱处理单元的具体处理方式如下:
11、as1、将所有知识内容文本导入预训练的属性提炼模型中,随后属性提炼模型对各个知识内容文本添加提炼编码;
12、同时将提炼编码添加至相应的内容存储池上;
13、as2、随后属性提炼模型通过内容识别算法识别出各个知识内容文本的关键词;
14、as3、将提取出的关键词与属性提炼模型中预设的属性样本进行语义相似度计算,并得出相似度值;
15、as4、将相似度值与预设阈值进行比较,若相似度值大于预设阈值,则将该属性样本作为本知识内容文本的属性标记;
16、as5、依据各个知识内容文本相应的属性样本集及其对应的属性样本对应获取检索管理区和检索标记文本,然后将相应知识内容文本对应的提炼编码和属性标记添加至对应的检索标记文本上;
17、as6、随后按照检索标记文本上提炼编码匹配内容存储池上提炼编码,并依据两者之间相同的提炼编码为检索标记文本和内容存储池之间构建提取通道。
18、作为本专利技术进一步的方案:所述图谱处理单元还预训练有生僻字优化嵌入模型,且其用于把优化词典后的古文bert以及古文句子作为全局特征描述,向属性提炼模型中内容识别算法嵌入相应的词向量。
19、作为本专利技术进一步的方案:融合显示单元的融合方式为:
20、bs1、依据知识图谱模型中检索管理区及其对应的多个检索标记文本,按照树状图的构建方式生成初始显示图谱;
21、bs2、获取知识内容文本所属内容存储池对应的提炼编码;
22、bs3、在知识图谱模型中获取相同提炼编码的检索标记文本,并将知识内容文本替换在初始显示图谱中检索标记文本上,即得到中医古籍知识图谱;
23、作为本专利技术进一步的方案:本系统还包括:
24、提取输入单元,用于检索用户输入检索内容;
25、精简显示单元,用于检索用户依据检索内容生成目标图谱,并显示给检索用户。
26、作为本专利技术进一步的方案:其中,目标图谱表示为按照检索用户需求,从中医古籍知识图谱提出的精简图谱。
27、作为本专利技术进一步的方案:所述精简显示单元的生成方式如下:
28、sa1、将检索内容导入属性提炼模型中,属性提炼模型通过内容识别算法识别出检索内容的关键词;
29、sa2、将提取出的关键词与属性提炼模型中预设的属性样本进行语义相似度计算,并得出相似度值;
30、sa3、将相似度值与预设阈值进行比较,若相似度值大于预设阈值,则将该属性样本作为该目标图谱的属性标记;
31、sa4、依据该目标图谱的属性标记在知识图谱模型中获取相同属性标记的检索标记文本;
32、sa5、将上一步获取的检索标记文本及其所属的检索管理区,并结合树状图构建方式搭建生成简练初始图谱;
33、sa6、通过检索标记文本的提取通道从内存存储池获取相应的知识内容文本,并将相应的知识内容文本导入简练初始图谱中,并生成目标图谱。
34、本专利技术提供了中医古籍知识图谱构建用数据管理系统。与现有技术相比具备以下有益效果:
35、本专利技术通过设置图谱处理单元,可以实现知识内容文本自动化处理,同时实现知识图谱模型的自主搭建;通过在知识图谱模型与信息储存单元构建相应的提取通道,利用提取通道为知识图谱模型提供知识内容文本信息,解决了现有技术中,相同知识内容文本重复在知识图谱模型中显现,导致知识图谱模型的内存占有量过大的问题;
36、本专利技术通过将用户输入检索内容结合精简显示单元进行目标图谱的提取,可以帮助检索用户在原知识图谱数据中构建符合用户需求的新知识图谱,实现知识图谱内容的自动筛选,便于检索用户及时有效地得到相关知识;
37、本专利技术利用提取通道为知识图谱模型提供知识内容文本信息,使得用户可以依据知识图谱模型中结构化的海量标记数据,从内容存储池中提取非结构化的内容文本,可有效地对内容文本进行结构化展示,便于非结构化的文本数据的管理和使用,提高了文本数据的利用率;
38、本专利技术通过设置生僻字优化嵌入模型,提高了中医古籍中知识内容文本的抽取效果,解决了中医古籍文本内容有生僻字多,语法也与现代汉语语法不同,导致主流的知识本文档来自技高网
...
【技术保护点】
1.中医古籍知识图谱构建用数据管理系统,其特征在于,包括:
2.根据权利要求1所述的中医古籍知识图谱构建用数据管理系统,其特征在于:本系统还包括:
3.根据权利要求1所述的中医古籍知识图谱构建用数据管理系统,其特征在于:其中,知识图谱模型依据树状图构建方式搭建生成。
4.根据权利要求1所述的中医古籍知识图谱构建用数据管理系统,其特征在于:在知识图谱模型搭建过程中,一个属性样本集对应构建一个检索管理区,且一个属性样本集的多个属性样本对应构建多个检索标记文本。
5.根据权利要求4所述的中医古籍知识图谱构建用数据管理系统,其特征在于:所述图谱处理单元的具体处理方式如下:
6.根据权利要求5所述的中医古籍知识图谱构建用数据管理系统,其特征在于:所述图谱处理单元还预训练有生僻字优化嵌入模型,且其用于把优化词典后的古文Bert以及古文句子作为全局特征描述,向属性提炼模型中内容识别算法嵌入相应的词向量。
7.根据权利要求5所述的中医古籍知识图谱构建用数据管理系统,其特征在于:融合显示单元的融合方式为:
8.根据权利要求5所述的中医古籍知识图谱构建用数据管理系统,其特征在于:本系统还包括:
9.根据权利要求8所述的中医古籍知识图谱构建用数据管理系统,其特征在于:其中,目标图谱表示为按照检索用户需求,从中医古籍知识图谱提出的精简图谱。
10.根据权利要求8所述的中医古籍知识图谱构建用数据管理系统,其特征在于:所述精简显示单元的生成方式如下:
...
【技术特征摘要】
1.中医古籍知识图谱构建用数据管理系统,其特征在于,包括:
2.根据权利要求1所述的中医古籍知识图谱构建用数据管理系统,其特征在于:本系统还包括:
3.根据权利要求1所述的中医古籍知识图谱构建用数据管理系统,其特征在于:其中,知识图谱模型依据树状图构建方式搭建生成。
4.根据权利要求1所述的中医古籍知识图谱构建用数据管理系统,其特征在于:在知识图谱模型搭建过程中,一个属性样本集对应构建一个检索管理区,且一个属性样本集的多个属性样本对应构建多个检索标记文本。
5.根据权利要求4所述的中医古籍知识图谱构建用数据管理系统,其特征在于:所述图谱处理单元的具体处理方式如下:
6.根据权利要求5所述的中医古籍知识图谱构建...
【专利技术属性】
技术研发人员:许雯,王海洋,隋明爽,王海涛,李真真,王慎强,
申请(专利权)人:滨州医学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。