【技术实现步骤摘要】
一种蛋白质知识图谱向量化方法
[0001]本专利技术涉及计算机
,涉及知识图谱构建技术,特别涉及一种蛋白质知识图谱向量化方法。
技术介绍
[0002]
技术介绍
涉及五大块:命名实体识别、关系提取、知识图谱构建、知识图谱向量化、多模态学习。
[0003]1)命名实体识别(Named Entities Recognition)
[0004]命名实体识别是自然语言处理的一个基础任务,是信息抽取、信息检索、机器翻译、问答系统等多种自然语言处理技术必不可少的组成部分。其目的是识别语料中人名、地名、组织机构名等命名实体。由于命名实体数量不断增加,通常不可能在词典中穷尽列出,且其构成方法具有各自的一些规律性,因而,通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理,称为命名实体识别。
[0005]海量的非结构化生物医学文献中蕴含着丰富的有价值的生物医学知识,是生物医学领域重要的知识来源。因此,迫切需要研究文本挖掘的方法提取和理解其中的知识。生物医学命名实体识别和规范化以及文本分类是其他任务的基础,它 ...
【技术保护点】
【技术特征摘要】
1.一种蛋白质知识图谱向量化方法,其特征在于,该方法包括如下步骤:步骤一:收集HPA蛋白质无结构和半结构语料采用网页爬虫技术抓取蛋白质网页中的无结构信息和半结构信息;其中,无结构信息为纯文字描述段落;半结构信息为在网页中以表格形式存在的且每个方格中以短语或单词为文本内容的信息;步骤二:使用自然语言处理工具集合Stanza进行医疗实体检测和提取先使用工具集合Stanza中的分句工具将收集到的无结构信息文本段落进行分句得到句子集合,对每个句子进行实体检测;使用工具集合Stanza自带的五种不同命名实体模型对每个句子进行检测分别输出五个实体集合检测结果,取这五个结果的实体并集作为最终得到的实体集合;步骤三:制定语法规则提取实体间关系并存储为三元组集合形式使用句法分析工具Spacy对于每个句子进行句法分析以得到句中每个词的词性和与其他词汇的依赖关系;在得到实体集合后,制定语法规则来抽取两两实体之间的关系,语法规则为将每个句子的主语作为头实体,谓语作为关系,宾语作为尾实体,最终得到三元组集合;步骤四:制定关系合并规则并使用近义词合并限制关系数量建立字典将三元组中含义或角色功能相似的关系词使用相同的动词(称为标准关系词)表示,字典的键key是标准关系词,值value是原本的关系词列表;使用近义词工具wordnet将关系词列表中的每个词的近义词也添加到关系词列...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。