【技术实现步骤摘要】
本专利技术涉及医学知识库构建领域,具体提供一种向量化知识库建设方法及装置。
技术介绍
1、随着精准医学的发展,医学知识库成为医学领域研究的热点。目前国内外医学知识库形式包括医学文献库和医学知识图谱两种。业界经典医学文献库如pubmed、emerginginfectiousdiseases、lancet infectiousdiseases等。医学知识图谱如cmekg、omaha等。然而无论是医学文献类型知识库还是医学知识图谱,由于其知识的表示形式仍以文本形式为主,因此无法直接应用于深度学习算法模型中,进而无法与先进人工智能技术融合,实现对人工智能模型的知识增强。
技术实现思路
1、本专利技术是针对上述现有技术的不足,提供一种实用性强的向量化知识库建设方法。
2、本专利技术进一步的技术任务是提供一种设计合理,安全适用的向量化知识库建设装置。
3、本专利技术解决其技术问题所采用的技术方案是:
4、一种向量化知识库建设方法,包括:
5、(一)对向量
...【技术保护点】
1.一种向量化知识库建设方法,其特征在于,包括:
2.根据权利要求1所述的一种向量化知识库建设方法,其特征在于,在步骤S1-1中,设定段落最大长度Maxlen,将文献集D1={d1,d2,d3,…,dn}中的每篇文献d进行分段处理,查找小于Maxlen长度的最接近的句子结尾位置作为分割点,进行分段,形成文献集D2;
3.根据权利要求2所述的一种向量化知识库建设方法,其特征在于,在步骤S1-2中,对文献库中的文献进行逐篇分词,形成分词后的文献集D3;
4.根据权利要求3所述的一种向量化知识库建设方法,其特征在于,在步骤S1-3中,权重
...【技术特征摘要】
1.一种向量化知识库建设方法,其特征在于,包括:
2.根据权利要求1所述的一种向量化知识库建设方法,其特征在于,在步骤s1-1中,设定段落最大长度maxlen,将文献集d1={d1,d2,d3,…,dn}中的每篇文献d进行分段处理,查找小于maxlen长度的最接近的句子结尾位置作为分割点,进行分段,形成文献集d2;
3.根据权利要求2所述的一种向量化知识库建设方法,其特征在于,在步骤s1-2中,对文献库中的文献进行逐篇分词,形成分词后的文献集d3;
4.根据权利要求3所述的一种向量化知识库建设方法,其特征在于,在步骤s1-3中,权重计算,通过如下公式,为词库中的每个词计算权重值,所述权重值将在embedding后,加权至embedding的向量中,提高向量的语义表达能力;
5.根据权利要求4所述的一种向量化知识库建设方法,其特征在于,在步骤s1-4中,文本编码,根据词库中词的顺序,对d3中的各词进行编码,形成d4,文本被编码后的长度为l,分词量不足l的用[unk]补充;
【专利技术属性】
技术研发人员:刘文丽,李新,韩成轩,马良,李向阳,
申请(专利权)人:山东浪潮智慧医疗科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。