一种基于预训练的搜索问答系统技术方案

技术编号:24091441 阅读:43 留言:0更新日期:2020-05-09 08:15
本发明专利技术公开一种基于预训练的搜索问答系统,包括噪音判断模块、QA问答模块、知识匹配模块和响应输出模块;噪音判断模块对用户问题是否属于噪音进行判断,QA问答模块包括规则录入单元和规则解析单元,知识匹配模块对问题与问答库中的知识进行索引并作出相似度排序,知识索引包括倒排索引和Annoy索引两种方式,响应输出模块用于输出响应,响应包括相似问题列表、准确答案、无答案、推荐热门问题四种类型。本发明专利技术可以有效解决知识泛化迁移、噪音判断和QA定制的问题,在改善用户体验的同时,极大的提高问答效率。

A search question answering system based on pre training

【技术实现步骤摘要】
一种基于预训练的搜索问答系统
本专利技术涉及一种基于预训练的搜索问答系统,是一种基于预训练获得语言模型和现有的问答数据库,并对客户问题进行交互的系统,属于自然语言处理和机器学习领域。
技术介绍
搜索问答系统,是指系统接受到用户问题,在问答知识库中进行相似问题搜索并排序,向用户展示一个相似问题列表,并让用户进行选择,以最大可能的解决用户问题。目前各类知识库问答系统、智能客服助手、自助机等终端设备中都采用此种问答模式。区别于传统的对话系统,对话系统的重点在于交互,而搜索问答系统的重点在于提高更加准确的相似问题列表,其没有对话系统那么多的上下文状态需要维护,也不完全需要精确的问答响应。在终端设备中,语音识别准确率、客户口语化问题仍然是制约对话系统发展的关键原因。搜索问答系统可通过推荐相似问题列表这种简单高效的方式来缓解这个问题,但是也仍然面临着前5推荐准确率较低的问题。影响前5推荐准确率低的因素主要有三个,分别是口语泛化、噪音影响和固定问题需要准确答案。搜索问答系统往往针对一个行业具有大量的数据量,且用户的问答形式更加多种多样。用户的问题可能本文档来自技高网...

【技术保护点】
1.一种基于预训练的搜索问答系统,其特征在于:包括噪音判断模块、QA问答模块、知识匹配模块和响应输出模块;/n噪音判断模块通过行业词库和排除词库对用户问题是否属于噪音进行判断,当用户问题包含有行业词且不包含排除词时,被认定为非噪音,进入QA问答模块进行解析,否则被认定为噪音,响应输出模块返回热门推荐问题或者无响应;/nQA问答模块包括规则录入单元和规则解析单元,规则解析单元对规则录入单元录入的用户问题进行解析,并判断解析出的用户输入是否必须要准确返回答案,如果是,则响应输出模块输出该问题对应的标准答案,如果否,则将解析出的问题送入知识匹配模块;/n知识匹配模块对问题与问答库中的知识进行索引并作...

【技术特征摘要】
1.一种基于预训练的搜索问答系统,其特征在于:包括噪音判断模块、QA问答模块、知识匹配模块和响应输出模块;
噪音判断模块通过行业词库和排除词库对用户问题是否属于噪音进行判断,当用户问题包含有行业词且不包含排除词时,被认定为非噪音,进入QA问答模块进行解析,否则被认定为噪音,响应输出模块返回热门推荐问题或者无响应;
QA问答模块包括规则录入单元和规则解析单元,规则解析单元对规则录入单元录入的用户问题进行解析,并判断解析出的用户输入是否必须要准确返回答案,如果是,则响应输出模块输出该问题对应的标准答案,如果否,则将解析出的问题送入知识匹配模块;
知识匹配模块对问题与问答库中的知识进行索引并作出相似度排序,知识索引包括倒排索引和Annoy索引,Annoy索引基于语义模型,语义模型是在预训练模型的基础之上,通过训练数据生成、fine-tuning得到,语义模型最后一层或倒数第二层的输出作为问题向量进行Annoy索引,相似度计算与排序时,综合考虑向量相似度、问题问答频次和文本对齐比率;
响应输出模块用于输出响应,响应包括相似问题列表、准确答案、无答案、推荐热门问题四种类型。


2.根据权利要求1所述的基于预训练的搜索问答系统,其特征在于:噪音判断模块的排除词库通过人工筛选和后期日志维护得出,得出噪音判断模块行业词库的过程为:A1)、首先统计训练数据,训练数据来源包括问答知识库和通过网络资源爬取的其他行业数据问题;A2)、使用结巴分词的精确模式进行分词,基于行业问答知识库计算词频TF,基于所有的数据计算词的逆文档频率IDF,基于词频TF、逆文档频率IDF计算词权重W,词频TF、逆文档频率IDF、词权重W的计算公式分别为:






W=TF*IDF;
A3)、根据步骤b计算的词权重选取适当数量的词作为行业词,或者通过设置最低阈值来选取行业词,对行业词中的可拆分短语进行拆分或者将行业词添加到结巴分词的自定义分词中,并提高其权重,确保行业词可被正确分出;
A4)、由专业人员提供若干口语化的简称或其他非常规行业词,形成最终的行业词库。


3.根据权利要求1所述的基于预训练的搜索问答系统,其特征在于:QA问答模块的规则录入单元支持输入逻辑表达式、括号、逻辑嵌套、数字解析和实体录入,规则解析单元针对录入的逻辑表示式,首先将问题与规则表达式进行匹配,形成一个只包括1和0的逻辑表达式,然后通过规则解析算法对逻辑表达式进行计算并输出是否匹配。


4.根据权利要求3所述的基于预训练的搜索问答系统,其特征在于:通过规则解析算法对逻辑表达式进行计算的过程为:将逻辑表达式压入数字栈和运算符栈中进行递归计算,运算优先级为:括号>与操作>或操作,运算规则为:1&1=1;1&0=0&1=0;1|0=0|1=1;1|1=1;0|0=0,其中&表示与操作,|表示或操作,逻辑表达式中,用&替换与操作符号AND,用|替换或操作符号OR。


5.根据权利要求1所述的基于预训练...

【专利技术属性】
技术研发人员:申冲张传锋朱锦雷薛付忠杨帆
申请(专利权)人:神思电子技术股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1