【技术实现步骤摘要】
基于智能问答关联垂直问题域于开发问题域的方法及系统
[0001]本专利技术涉及
AI NLP
智能客服领域,具体地说是一种基于智能问答关联垂直问题域于开发问题域的方法及系统
。
技术介绍
[0002]在
AI NLP
智能客服应用方面,多数场景下会需要特定垂直领域的知识问答,这是基础,在此之上,也需要开放问题域知识问答
。
如何将开放问题域和特定垂直领域知识结合是一个切实的需求
。
[0003]开放问题域与特定领域结合的实现方式目前通用方法具体如下:
[0004]①
将特定领域知识放到开放模型中做微调训练,然后将整合好的模型做统一部署,终端通过
API
的方式发起请求
、
推理
、
返回结果
。
该方法存在的问题为:如果使用开放问题域大模型做微调训练,那么私有化部署是一个无法完成的任务
。
部署资源需求大
、
硬件条件要求高;如果使用小规模开放问题域做开放域问题回答,由于训练集较小导致效果不理想
。
[0005]②
多领域知识模型通过分词
、
命名实体识别来指定由某个垂直领域模型回答问题,如果都不包含则使用开放问题与回答
。
该方法存在的问题为:由于需要先进性分词抽取
、
命名实体识别工作,再进行推理,导致响应速度慢
、
相关性
、
...
【技术保护点】
【技术特征摘要】
1.
一种基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,该方法具体如下:知识归集及结构化处理:将特征领域知识进行归集及结构化处理;微调训练:将归集及结构化处理的数据输入到
Sentence Bert
模型进行微调训练,得到特定垂直领域知识智能问答模型,并将特定垂直领域知识智能问答模型私有化部署或者提供
Saas
服务;获取开放问题域知识模型:通过
Saas
服务获取得到开放问题域知识模型;相似度匹配:将问题输入到特定垂直领域知识智能问答模型,并将该问题与特定垂直领域知识问答库中的相似问题进行相似度匹配,即计算相似度值,并将相似度值进行降序排序后,再与设定阈值进行比较:若相似度值小于设定阈值,则该问题为非特定领域知识,进而将该问题通过开发问题域知识模型通用
API
或
Saas
服务做出解答;若相似度值大于等于设定阈值,则该问题为特定垂直领域,进而将该问题通过特定垂直领域知识智能问答模型做出解答
。2.
根据权利要求1所述的基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,微调训练具体如下:构建数据集:获取垂直领域问答数据构建数据集;构建正样本和负样本:利用数据集分别构建正样本和负样本;构建训练数据集:训练时,输入正样本相似性数值设置为1,即
(x1,y1)
=1;负样本设置为0,即
(x1,y2)
=0;
x1
为原始问题内容;
y1
为正样本问题内容;
y2
为负样本问题内容;每一个数据集中正样本为1‑2份,负样本为5份;将训练数据集输入到特定垂直领域知识智能问答模型中进行相似性训练;设定训练参数:
learning rate
=
2e
‑5;
Epoch
=
3。3.
根据权利要求2所述的基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,构建正样本和负样本具体如下:从数据集中随机抽取指定份数问答对数据;通过人工标注形式,将每个样本标注1‑2份正样本;每一个样本都从指定份数问答对数据中随机抽取5份作为负样本
。4.
根据权利要求1所述的基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,相似度匹配具体如下:相似度值计算公式具体如下:其中,
A
和
B
为两个
n
维向量;
A1
到
An
为向量
A
的其中任一维度数值,
B1
到
Bn
为向量
B
的其中任一维度数值;
A
为
[A1,A2,...,An]
;
B
为
[B1,B2,...,Bn]
;两个方向完全相同的向量的余弦相似度值为1,两个彼此相对的向量的余弦相似度值为
‑1;通过
softmax
函数将余弦结果
[
‑
1,1]...
【专利技术属性】
技术研发人员:单文政,张连超,张玉新,刘燕,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。