一种向量化知识库建设方法及装置制造方法及图纸

技术编号:40162213 阅读:13 留言:0更新日期:2024-01-26 23:35
本发明专利技术涉及医学知识库构建领域,具体提供了一种向量化知识库建设方法及装置,包括:(一)对向量化医学知识库进行建设;对医学文献库和医学知识通过文本向量化与图像向量化方式,进行知识表达,构建向量化医学知识库,具体步骤包括:S1‑1、文献分段;S1‑2、文本分词;S1‑3、权重计算;S1‑4、文本编码;S1‑5、文本embedding;S1‑6、对D5中的divj文本向量进行加权处理;(二)对向量化医学知识库进行应用;S2‑1、相关性计算;S2‑2、采用向量拼接方式;S2‑3、输出模型结果。与现有技术相比,本发明专利技术实现医学文献知识对自然语言模型的知识增强,从而辅助提高自然语言模型的语义理解能力与模型准确性。

【技术实现步骤摘要】

本专利技术涉及医学知识库构建领域,具体提供一种向量化知识库建设方法及装置


技术介绍

1、随着精准医学的发展,医学知识库成为医学领域研究的热点。目前国内外医学知识库形式包括医学文献库和医学知识图谱两种。业界经典医学文献库如pubmed、emerginginfectiousdiseases、lancet infectiousdiseases等。医学知识图谱如cmekg、omaha等。然而无论是医学文献类型知识库还是医学知识图谱,由于其知识的表示形式仍以文本形式为主,因此无法直接应用于深度学习算法模型中,进而无法与先进人工智能技术融合,实现对人工智能模型的知识增强。


技术实现思路

1、本专利技术是针对上述现有技术的不足,提供一种实用性强的向量化知识库建设方法。

2、本专利技术进一步的技术任务是提供一种设计合理,安全适用的向量化知识库建设装置。

3、本专利技术解决其技术问题所采用的技术方案是:

4、一种向量化知识库建设方法,包括:

5、(一)对向量化医学知识库进行建设本文档来自技高网...

【技术保护点】

1.一种向量化知识库建设方法,其特征在于,包括:

2.根据权利要求1所述的一种向量化知识库建设方法,其特征在于,在步骤S1-1中,设定段落最大长度Maxlen,将文献集D1={d1,d2,d3,…,dn}中的每篇文献d进行分段处理,查找小于Maxlen长度的最接近的句子结尾位置作为分割点,进行分段,形成文献集D2;

3.根据权利要求2所述的一种向量化知识库建设方法,其特征在于,在步骤S1-2中,对文献库中的文献进行逐篇分词,形成分词后的文献集D3;

4.根据权利要求3所述的一种向量化知识库建设方法,其特征在于,在步骤S1-3中,权重计算,通过如下公式,...

【技术特征摘要】

1.一种向量化知识库建设方法,其特征在于,包括:

2.根据权利要求1所述的一种向量化知识库建设方法,其特征在于,在步骤s1-1中,设定段落最大长度maxlen,将文献集d1={d1,d2,d3,…,dn}中的每篇文献d进行分段处理,查找小于maxlen长度的最接近的句子结尾位置作为分割点,进行分段,形成文献集d2;

3.根据权利要求2所述的一种向量化知识库建设方法,其特征在于,在步骤s1-2中,对文献库中的文献进行逐篇分词,形成分词后的文献集d3;

4.根据权利要求3所述的一种向量化知识库建设方法,其特征在于,在步骤s1-3中,权重计算,通过如下公式,为词库中的每个词计算权重值,所述权重值将在embedding后,加权至embedding的向量中,提高向量的语义表达能力;

5.根据权利要求4所述的一种向量化知识库建设方法,其特征在于,在步骤s1-4中,文本编码,根据词库中词的顺序,对d3中的各词进行编码,形成d4,文本被编码后的长度为l,分词量不足l的用[unk]补充;

【专利技术属性】
技术研发人员:刘文丽李新韩成轩马良李向阳
申请(专利权)人:山东浪潮智慧医疗科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1