【技术实现步骤摘要】
一种基于知识图谱的智能问答意图识别方法
[0001]本专利技术属于高速列车设计领域,具体涉及一种基于知识图谱的智能问答意图识别方法。
技术介绍
[0002]随着信息数据增长和知识图谱概念的提出,面向知识图谱的智能问答已经成为了当下提供知识服务的研究热点,而意图识别作为智能问答中重要的一环,直接决定了问答的效果,好的意图识别模型能够做到准确解析问句的语义信息和层次信息,精准识别用户的意图。
[0003]由于高速列车领域知识图谱的构建需要从高速列车概念设计、系统设计、方案设计等多个阶段中抽取知识,使得高速列车领域知识数据存在多元性以及海量性。这也就使得面向高速列车领域知识图谱的智能问答存在为问句意图繁多、意图层次不一以及问句结构多变的问题,这对于该领域智能问答中问句的意图识别是一个极大的挑战。因此,如何精准的识别用户问句的意图,并利用此来为高速列车领域从业人员提供高效的问答服务,成为了需要克服的困难。
[0004]现在已有学者对意图识别开展了研究,其中多是基于分类模型或者句法匹配来实现问题类别判定,基于命名体识别 ...
【技术保护点】
【技术特征摘要】
1.一种基于知识图谱的智能问答意图识别方法,其特征在于,包括如下步骤:步骤S1:基于词典与命名体识别模型相结合的实体抽取;具体包括如下步骤:步骤S11:构建词典;从高速列车领域知识图谱中导出所有实体形成实体词典;手工构建实体的相关同义词形成同义词词典;从高速列车领域知识图谱中导出所有本体标签形成本体标签词典;步骤S12:构建命名体识别模型以对实体进行初步抽取;通过对高速列车领域各阶段原始数据进行实体标注,将输出形成的标注数据输入到bert
‑
bilstm
‑
crf命名体识别模型中进行模型训练,完成命名体识别模型的构建;模型构建完成后,将用户问句输入bert
‑
bilstm
‑
crf命名体识别模型中,通过字嵌入的方式依次经过bert层、双向循环神经网络层和crf层,得到用户问句的序列标注结果,并依据序列标注结果输出用户问句中所含的预期实体,完成实体的初步抽取;步骤S13:在得到实体抽取的初步结果之后,将抽取出来的预期实体代入到实体词典、同义词词典以及本体标签词典中进行字符串匹配,如果预期实体能够与词典中某一词语完全匹配,则将它作为最终实体输出,否则进行编辑距离和余弦相似度的计算,将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终实体;步骤S2:基于问题浅度判定与问题深度判定结合的问题种类判定;具体包括如下步骤:步骤S21:问题浅度判定;首先对用户输入的用户问句进行分词以及停词,将用户问句转换为相关词的词序列,对词序列分别进行句型特征、用户特征以及词向量特征的提取以及融合,并将三个特征融合而成的向量作为用户问句的特征总向量输入到分类模型进行问题方向的预测,输出语义方向标签;步骤S22:问题深度判定;将步骤S21中所得到的语义方向标签与模板库进行匹配,当匹配到相应的模板库后提取出模板库内的问句模板;然后将用户问句作句法分析和词性标注,得到用户问句的词性句法分析树,将其与提取出来的问句模板进行相似度匹配,并将相似度最大的问句模板所对应的查询模板作为用户问句的查询模板,实现查询映射;步骤S3:组装查询语句;将步骤S1中抽取的实体与步骤S2中所对应的查询模板进行组装,将查询模板中的变量替换成实体,形成可以用于检索知识图谱的标准查询语句,标准查询语句即代表了用户的最终意图,后续将标准查询语句代入知识图谱进行检索便可以得到与用户问题相关的结果,实现高速列车领域用户意图的最终识别;在插入同类型实体时,结合高速列车结构树以及高速列车领域知识图谱结构,将同类型实体转换为其知识图谱类的本体标签,依据结构树的层级将本体标签层级低的实体替换查询语句中靠前的变量,实现同类型实体的插入;其中,结构树层级由高到低依次划分为系统、子系统、部件、零件。2.如权利要求1所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述将同时满足编辑距离大于最小阈值以及余弦相似度最高的实体作为抽取的最终实体,包括如下步骤:步骤S131:计算初步抽取的预期实体与词典中词语的编辑距离,其计算公式如下:
式中:lev
a,b
(i,j)代表预期实体与词典中词语的编辑距离;a是初步抽取的预期实体;b是词典中所包含的词语;i代表预期实体a的字符串下标,从0开始;j代表词语b的字符串下标,从0开始;Max(i,j)代表i和j之间的最大值,Min(i,j)代表i和j之间的最小值;a
i
≠b
j
代表a的第i个字符与b的第j个字符不相同的情况;步骤S132:判断预期实体与词典内每一个词语各自的编辑距离是否大于最小阈值,若大于最小阈值,则进一步计算词典内大于所述最小阈值的词语与预期实体之间的余弦相似度,其计算公式如下:式中:similarity(W,V)是初步抽取的预期实体和词典中词语的余弦相似度;W是初步抽取的预期实体预训练词向量;V是词典中所包含的词语预训练词向量;Wi是初步抽取的预期实体的预训练词向量第i个参数;Vi是词典中包含的词语的预训练词向量第i个参数;n是预训练词向量的维度;步骤S133:将词典中同时满足编辑距离大于最小阈值以及余弦相似度最高的词语作为抽取的最终实体,其计算公式如下:式中:S为自然语言问句;Owl(S)为问句中的最终实体;a为初步抽取的预期实体个数;c为词典的总词数;d为余弦相似度计算的结果总数;Similarity(Si,Bj)为问句中第i个词与词典中第j个词的相似度;Xd代表第d组词的相似度运算结果;lev
Si,Bj
(m,n)为问句中第i个词与词典中第j个词的编辑距离;Si代表问句中的i个词;len(Si)为问句中第i个词的长度;Bj代表词典中第j个词;len(Bj)为词典中第j个词的长度;[]为取整符号;!Bj代表词典中第j个词非最终实体;步骤S134:将词典内与每一个预期实体匹配的词语作为实体抽取的最终实体的集合;如果某一预期实体的编辑距离或者相似度中任意一个未达标,则认为命名体识别模型错误的识别了预期实体,并将该预期实体剔除。3.如权利要求2所述的一种基于知识图谱的智能问答意图识别方法,其特征在于,所述步骤S21具体包括:步骤S211:分词及停词;将用户问句输入jieba分词器进行分词处理;其中,将预先构建
好的词典输入分词器中完成领域专有名词的识别;将分词后的分词序列输入到停词表中,如果某一词在停词表内,则将其视为非核心词去除,保留用户问句的主要成分形成用于特征提取的词序列;所述预先构建好的词典包括:从高速列车领域知识图谱中导出所有实体形成的实体词典;手工构建实体的相关同义词形成的同义词词典;从高速列车领域知识图谱中导出所有本体标签形成的本体标签词典;步骤S212:特征提取及融合;将步骤S211中获得的词序列转化为词向量特征、句型特征以及用户特征三方面的特征词向量形式并将其融合为特征总向量;其中,词向量特征表示问句词语级的特征,由预训练词向量得来;句型特征表示问句句子结构的特征,由词序列的词性序列得来;用户特征表示用户级的特征,由用户信息、用户日志得来;步骤S213:将用户问句转换为特征总向...
【专利技术属性】
技术研发人员:张海柱,黎荣,王淑营,丁国富,江磊,马自立,
申请(专利权)人:西南交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。