【技术实现步骤摘要】
一种基于双重知识选择的生物医学问答方法
本专利技术属于自然语言处理
,通过问题和答案对知识的双重选择和编码,基于选择知识的共性来判断问题和答案的契合程度,以此来利用知识库中的结构化知识,提高生物医学问答的性能。
技术介绍
本专利技术针对ACLBioNLP2019共享任务所提出的生物医学问答语料MediQA(OverviewofMEDIQA2019SharedTaskonTextualInference,QuestionEntailmentandQuestionAnswering,2019,Proceedingsofthe18thBioNLPWorkshopandSharedTask,370-379.),其中每个样例由一个问题和多个答案组成,需要判断答案是否能够回答问题。问答系统研究方法大致可以分为三类:基于规则的方法、基于传统机器学习的方法和基于神经网络的方法。基于规则的方法主要利用启发式的语言学规则进行问句相似度匹配。Yih等人(Questionansweringusingenhancedlexicalsem ...
【技术保护点】
1.一种基于双重知识选择的生物医学问答方法,其特征在于,步骤如下:/n(1)知识图谱的构建/n搜集不同的生物医学数据库作为数据来源,分为三部分部分,一部分是生物医学知识库中的结构化知识,其余两部分是网络上的生物医学网站上的半结构化知识;结构化知识为CTD中的药物-疾病关系;半结构化知识包括从药物资源网站上爬取的药物相关知识,从疾病资源网站上爬取的疾病相关知识;上述知识均以三元组实体-关系-实体形式进行保存,对三元组进行清洗,然后将不同来源的三元组合并得到一个统一的知识图谱;得到知识图谱后应用知识表示学习来学习实体和关系的向量表示;/n(2)基于双重知识选择的生物医学问答/n ...
【技术特征摘要】
1.一种基于双重知识选择的生物医学问答方法,其特征在于,步骤如下:
(1)知识图谱的构建
搜集不同的生物医学数据库作为数据来源,分为三部分部分,一部分是生物医学知识库中的结构化知识,其余两部分是网络上的生物医学网站上的半结构化知识;结构化知识为CTD中的药物-疾病关系;半结构化知识包括从药物资源网站上爬取的药物相关知识,从疾病资源网站上爬取的疾病相关知识;上述知识均以三元组实体-关系-实体形式进行保存,对三元组进行清洗,然后将不同来源的三元组合并得到一个统一的知识图谱;得到知识图谱后应用知识表示学习来学习实体和关系的向量表示;
(2)基于双重知识选择的生物医学问答
给定问题和答案,问题表示为{q1,q2,q3,…,qn},其中n表示问题的长度,答案表示为{a1,a2,a3,…,am},其中m表示答案的长度;将问题和答案成对输入模型,按照模型输入要求,对模型进行处理,在开头添加一个分类标记[CLS],在每个句子结尾添加[SEP]标记,最终处理成[CLS],q1,q2,q3,…,qn,[SEP],a1,a2,a3,…,am,[SEP];对每个问题,根据问题中的主题实体到知识图谱中选择相应的知识,每个知识都是一个三元组,为每个问题选择L个知识;
基于双重知识选择的问答模型,首先使用SciBERT对输入进行编码,经过编码后,取SciBERT模型最后一层的输出作为输入序列的词嵌入,表示为
使用协同注意力机制对问题和答案进行语义编码,从SciBERT编码的词向量中取出问题和答案对应的每个词的表示:和协同注意力公式如下:
其中,是可学习的参数,协同注意力通过转换矩阵F看作是从问题关注空间到答案关注空间的一个转换,同时,FT看作是从答案关注空间到问题关注空间的一个转换;然后计算问题和答案之间的注意力权重:
Hq=tanh(WqQ+(WaA)FT)
Ha=tanh(WaQ+(WqA)F)
αq=softmax(WhqHq)
...
【专利技术属性】
技术研发人员:周惠巍,雷弼尊,李雪菲,徐奕斌,刘喆,
申请(专利权)人:大连理工大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。