实现航空领域知识问答的方法和系统技术方案

技术编号:34180151 阅读:44 留言:0更新日期:2022-07-17 12:53
本发明专利技术提供一种实现航空领域知识问答的方法和系统,方法包括以下步骤:S1:对文本中的词语进行分类并设置权重;S2:通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;S3:使用Bert模型得到对应文本的字符特征向量;S4:通过特征融合获得字符最终特征向量;S5:将字符最终特征向量输入到改进的BiDAF+Bi

Method and system for realizing Knowledge Q & A in aviation field

【技术实现步骤摘要】
实现航空领域知识问答的方法和系统


[0001]本申请涉及人工智能领域,具体涉及一种实现航空领域知识问答的方法和系统。

技术介绍

[0002]随着人工智能的快速发展,许多生活工作必备的智能产品都需要具有人工智能问答的功能,提升智能问答的准确性对于用户体验具有十分重要的意义。
[0003]智能问答系统是综合运用了自然语言处理、信息检索、语义分析和人工智能等技术的一种新型的信息服务系统。最初的问答系统是由ELIZA和ALICE设计实现的基于模式匹配的问答系统。该问答系统通过匹配用户问题与人工定义问题模板来获取问题答案,或者基于领域专家知识制定启发式规则推理获得相应的结果。但是由于这类系统的模式库和规则的构建非常困难,需要领域专家综合领域知识且受到知识理解的限制,对于新的领域知识往往缺乏相匹配的知识性能很差。目前较多商业化公司采用的智能问答系统是基于FAQ(Frequently Asked Questions)的问答系统,其侧重于将问题及相应的答案对存放在系统的知识库中通过提问相似度设置阈值找寻答案。其采用的技术主要包括CNN(Convolutional Neural Network)、LSTM(Long Short

Term Memory)和Attention机制。CNN主要依赖于空间上的卷积核来考虑序列依赖关系。LSTM引入了门控记忆单元,有效地解决了长期信息保存和短期输入跳跃的问题。而LSTM只能对输入生成固定长度的向量,不会对信息重要程度进行区分。Attention机制的核心逻辑就是从关注全部到关注重点,将有限的注意力集中在重点信息上,从而节省资源,快速获得最有效的信息。这些技术方法使得该问答系统结构框架明了、实现简单、容易理解。但基于FAQ的问答系统的缺点是知识库的构建需要大量的人员参与,比较耗时、系统灵活性较低,问题的覆盖面较低。随着BERT(Bidirectional Encoder Representation from Transformers)预训练模型的出现,语言模型对文本语义的表征提取更加丰富。随之发展出基于无结构化文本的问答技术主要包括社区问答和基于问答式搜索的问答系统。该类系统的缺点是没有专业知识库的支撑,只能对有限类型的问题进行回答,在专业度较高的领域不适用。
[0004]由上可知,现有的智能问答系统主要应用于开放领域,而限定领域(政府、医疗等)的数据难以通过互联网直接获取,系统无法很好的理解用户所提出的问题与所对应的领域相关的知识。导致开放领域的智能问答系统难以在这些领域应用,无法返回较好的结果。因此特别需要一套面向专业领域的智能问答实现方法,能够通过用户输入来准确理解用户意图,快速、准确的由用户输入的查询语句匹配出候选答案。

技术实现思路

[0005]为了克服现有技术的缺陷,本专利技术提供一种实现航空领域知识问答的方法,其包括以下步骤:
[0006]S1:根据航空知识领域的文本段落得到问题文本,再对文本段落和问题文本中的词语进行分类并设置优先级和权重,
[0007]S2:针对不同优先级的词语,通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;
[0008]S3:将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量;
[0009]S4:利用Word2Vec模型得到字符其它特征向量,将字符特征向量和字符其它特征向量进行融合,最后获得字符最终特征向量,实现了多特征子空间的文本映射表示;字符其它特征向量包括郑码、五笔、拼音和笔画特征向量;
[0010]S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi

LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,具体为:
[0011]将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互,再输入到Bi

LSTM模型,对信息进行编码增强序列依赖,最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性;
[0012]S6:将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;
[0013]S7:判断k值是否等于1,若k=1,则问题的答案来自单文本,直接得到该单文本答案句;若k≠1,则问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断;
[0014]S8:判断为多文本问答,则使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句。
[0015]优选的,所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重,具体为:
[0016]对问题文本基于领域的依存句法树,分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词,核心词一起组成核心词典;
[0017]对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词,领域词一起构成了领域词典;
[0018]使用LTP分词工具,在文本段落中得到去除核心词、领域词和停用词之外的词,称为非相关词,非相关词一起组成了其他词汇词典;
[0019]对上述得到的三种不同类型的词赋予不同优先级和权重,对核心词设为第一优先级,设置的权重值高于其他两类词的权重,对领域词设为第二优先级,设置的权重高于非相关词的权重,对非相关词设为第三优先级,设置的权重最低。
[0020]优选的,所述步骤S2中改进的词典权重调整的BM25算法,具体为:
[0021]通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配,得到两者之间的相似度得分加权和,也就是问题文本Q和文本段落D的相似度得分,其中词典权重调整的BM25算法具体如公式(1)

(4):
[0022][0023][0024][0025]其中P1>P2>(3

P1‑
P2)
ꢀꢀꢀꢀ
(4)
[0026]其中,P1、P2分别为问题核心词和领域词典词的权重;k3为词q
i
的权重,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大;score(D,Q)为问题文本Q和文本段落D的相似度得分;n为问题文本Q分词后得到的词的数量;i为正整数;IDF(q
i
)为q
i
的逆向文档频率;R(q
i
,D)为词q
i
与文本段落D的相关性得分;N本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实现航空领域知识问答的方法,其特征在于:其包括以下步骤:S1:根据航空知识领域的文本段落得到问题文本,再对文本段落和问题文本中的词语进行分类并设置优先级和权重,S2:针对不同优先级的词语,通过改进的词典权重调整的BM25算法,得到和问题文本最相似的k篇文本段落;S3:将问题文本Q和k篇文本段落中的每一个文本分别使用面向航空领域微调后的Bert模型得到对应文本的字符特征向量;S4:利用Word2Vec模型得到字符其它特征向量,将字符特征向量和字符其它特征向量进行融合,最后获得字符最终特征向量,实现了多特征子空间的文本映射表示;字符其它特征向量包括郑码、五笔、拼音和笔画特征向量;S5:将问题文本Q和文本段落的字符最终特征向量输入到改进的BiDAF+Bi

LSTM模型,并使用面向航空领域的数据进行对抗训练,得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,具体为:将问题文本Q和k篇文本段落的字符最终特征向量输入到BiDAF模型使得两者特征相互交互,再输入到Bi

LSTM模型,对信息进行编码增强序列依赖,最终得到带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量,使用面向航空领域的数据进行对抗训练增强带有多种特征的问题文本字符特征向量和带有多种特征的文本段落字符特征向量的鲁棒性;S6:将带有多种特征的文本段落字符特征向量中的每一个字符对应的向量分别通过判断答案开始的全连接层+softmax和判断答案结束的全连接层+softmax抽取出对应文本的答案句;S7:判断k值是否等于1,若k=1,则问题的答案来自单文本,直接得到该单文本答案句;若k≠1,则问题的答案来自多文本,需要对多段候选答案文本进行融合语义基于依据句法分析树的规则组合,进行语法和语义判断;S8:判断为多文本问答,则使用LTP工具根据答案句的依存句法结构和语义角色关系,利用句法规则生成多文本答案句。2.根据权利要求1所述的实现航空领域知识问答的方法,其特征在于:所述步骤S1中对文本段落和问题文本中的词语进行分类并设置优先级和权重,具体为:对问题文本基于领域的依存句法树,分析提取问题中不依存于其他词语且被除本身之外所有词语依存的核心词,核心词一起组成核心词典;对全部航空知识领域文本段落基于领域的依存句法树及领域规则提取出领域词,领域词一起构成了领域词典;使用LTP分词工具,在文本段落中得到去除核心词、领域词和停用词之外的词,称为非相关词,非相关词一起组成了其他词汇词典;对上述得到的三种不同类型的词赋予不同优先级和权重,对核心词设为第一优先级,设置的权重值高于其他两类词的权重,对领域词设为第二优先级,设置的权重高于非相关词的权重,对非相关词设为第三优先级,设置的权重最低。3.根据权利要求2所述的实现航空领域知识问答的方法,其特征在于:所述步骤S2中改进的词典权重调整的BM25算法,具体为:
通过问题文本Q分词后得到的词和文本段落D使用词典权重调整的BM25算法进行匹配,得到两者之间的相似度得分加权和,也就是问题文本Q和文本段落D的相似度得分,其中词典权重调整的BM25算法具体如公式(1)

(4):(4):(4):(4):其中,P1、P2分别为问题核心词和领域词典词的权重;k3为词q
i
的权重,词的优先级别越高,权重值越大,对相似度得分加权和的影响越大;score(D,Q)为问题文本Q和文本段落D的相似度得分;n为问题文本Q分词后得到的词的数量;i为正整数;IDF(q
i
)为q
i
的逆向文档频率;R(q
i
,D)为词q
i
与文本段落D的相关性得...

【专利技术属性】
技术研发人员:董洪飞高魁贺薇陶剑刘俊王孝天武铎高龙何柳安然
申请(专利权)人:中国航空综合技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1