一种基于向量搜索引擎的知识库问题添加方法及装置制造方法及图纸

技术编号:32362666 阅读:66 留言:0更新日期:2022-02-20 03:32
本发明专利技术公开了一种基于向量搜索引擎的知识库问题添加方法,所述方法包括:提取知识库各场景下的场景问题,将每一所述场景问题的至少一个相似问句转换为特征向量存入Milvus库中;对所述Milvus库中的每个所述相似问句的特征向量进行存储并建立索引;获取新增问句,将所述新增问句转换为特征向量,并在所述Milvus库中对所述新增问句的特征向量进行相似性检索获得第一相似问句以及相似概率,其中,所述第一相似问句的特征向量与所述新增问句的特征向量的相似概率最高;基于所述相似概率确定是否将所述新增问句添加至所述Milvus库中。是否将所述新增问句添加至所述Milvus库中。是否将所述新增问句添加至所述Milvus库中。

【技术实现步骤摘要】
一种基于向量搜索引擎的知识库问题添加方法及装置


[0001]本申请涉及知识库领域,尤其涉及一种基于向量搜索引擎的知识库问题添加方法及装置。

技术介绍

[0002]在智能客服场景中,涉及到用户意图识别,客服根据用户意图做出相应的回答。在知识库中存储了标准问题(意图)和大量的相似问句,基于ALBERT的意图识别模型上线后,AI训练师需要根据线上的识别效果或一些badcase不断调整知识库数据(新增、修改、删除等工作)。针对知识库新增问题,为了减轻AI训练师的工作量以及避免人工过程中的一些失误,可以通过算法来判断哪些数据需要添加,从而辅助训练师更高效的工作。
[0003]在现有的智能客服中,巡检发现知识库相关问题后,大多都是人工解决,例如:问题描述原因解决方法别人忽悠我办理的缺少知识库新增问题标准问题:客户表示钱都被骗走了已有相似问题:骗子骗光了我的钱我遇上骗子了钱全让人拿走了钱都被骗光了
……
判断问题“别人忽悠我办理的”是否需要添加到知识库,若完全由AI训练师决定,容易导致数据冗余或训练数据缺乏多样性;若采用模型判断的方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于向量搜索引擎的知识库问题添加方法,其特征是,所述方法包括:提取知识库各场景下的场景问题,将每一所述场景问题的至少一个相似问句转换为特征向量存入Milvus库中;对所述Milvus库中的每个所述相似问句的特征向量进行存储并建立索引;获取新增问句,将所述新增问句转换为特征向量,并在所述Milvus库中对所述新增问句的特征向量进行相似性检索获得第一相似问句以及相似概率,其中,所述第一相似问句的特征向量与所述新增问句的特征向量的相似概率最高;基于所述相似概率确定是否将所述新增问句添加至所述Milvus库中。2.根据权利要求1所述的一种基于向量搜索引擎的知识库问题添加方法,其特征是,基于所述相似概率确定是否将所述新增问句添加至所述Milvus库中包括:当所述相似概率不高于预设阈值时,将所述新增问句添加至所述Milvus库中。3.根据权利要求1所述的一种基于向量搜索引擎的知识库问题添加方法,其特征是,将每一所述场景问句的至少一个相似问句转换为特征向量包括:利用SBERT对每个所述相似问句进行编码,经过池化操作后得到固定大小的每个所述相似问句的特征向量。4.根据权利要求1所述的一种基于向量搜索引擎的知识库问题添加方法,其特征是,将所述新增问句转换为特征向量包括:利用SBERT对每个所述新增问句进行编码,经过池化操作后得到所述新增问句的特征向量。5.根据权利要求1所述的一种基于向量搜索引擎的知识库问题添加方法,其特征是,对所述Milvus库中的每个所述相似问句的特征...

【专利技术属性】
技术研发人员:候雪飞
申请(专利权)人:浙江百应科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1