【技术实现步骤摘要】
一种基于BERT与知识表示学习的问答系统及方法
[0001]本专利技术涉及到自然语言处理
,特别是设计到一种基于BERT与知识表示学习的问答系统及方法。
技术介绍
[0002]问答系统(Question Answering System,QA)是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户用自然语言提出的问题。传统的智能问答系统通过问句解析获取实体与属性信息,然后基于预定义问句规则生成结构化查询语句,进而在数据集中检索答案并返回。但基于规则的答案推理仅能够处理已定义的规则,不能覆盖问句的所有情况。
技术实现思路
[0003]本专利技术的目的在于提供一种基于BERT与知识表示学习的问答系统及方法,解决了传统的智能问答系统预定义规则有限而无法回答各种类型问句的问题。
[0004]为了达到上述目的,本专利技术采用的技术方案是:
[0005]本专利技术提供的一种基于BERT与知识表示学习的问答方法,包括以下步骤:
[0006]步骤1,获取原始数据集,并对原始数据集进行训 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT与知识表示学习的问答方法,其特征在于,包括以下步骤:步骤1,获取原始数据集,并对原始数据集进行训练,得到训练后的数据集;步骤2,接收问题语句,对接收到的问题语句分别进行实体识别和属性识别,分别得到实体信息和属性信息;步骤3,将步骤2中得到的实体信息与步骤1中的原始数据集进行实体链接,得到标准实体信息;步骤4,将步骤3中得到的标准实体信息、步骤2中得到的属性信息、以及步骤1中得到的训练后的数据集进行推理,得到标准实体信息与属性信息对应的答案,进而得到问题语句的答案。2.根据权利要求1所述的一种基于BERT与知识表示学习的问答方法,其特征在于,步骤1中,对原始数据集进行训练,得到训练后的数据集,具体方法是:利用基于TransE的知识表示学习方法对原始数据集进行训练。3.根据权利要求2所述的一种基于BERT与知识表示学习的问答方法,其特征在于,利用基于TransE的知识表示学习方法对原始数据集进行训练,具体方法是:S21,获取原始数据集,该原始数据集中包括有多组三元组;S22,利用Word2vec预训练词向量对S21中得到的原始数据集中的每组三元组进行初始化,获得每组三元组的初始向量;S23,利用基于TransE模型训练S22中得到的每组三元组的初始向量,获得每组包含语义信息的三元组向量,进而得到训练后的数据集。4.根据权利要求1所述的一种基于BERT与知识表示学习的问答方法,其特征在于,步骤2中,分别对接收到的问题语句进行实体识别和属性识别,具体方法是:利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别,得到实体信息;利用基于BERT的文本分类方法对S1中的问题语句进行属性识别,得到属性信息。5.根据权利要求4所述的一种基于BERT与知识表示学习的问答方法,其特征在于,利用基于BERT+CRF的命名实体识别方法对问题语句进行实体识别,具体方法是:将得到的问题语句按字进行分隔,之后输入至BERT预训练模型中进行自编码,获得问句编码向量;将得到的问句编码向量输入至实体识别模型的CRF层,得到预测标签序列;根据得到的预测标签序列对所述问题语句进行命名实体识别,得到实体信息。6.根据权利要求4所述的一种基于BERT与知识表示学习的问答方法,其特征在于,利用基于BERT的文本分类方法对S1中的问题语句进行属性识别,具体方法是:S41、将得到的问题语句输入至BERT预...
【专利技术属性】
技术研发人员:姜洪超,金莉,石岩,康宗,罗晓东,王勇,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。