基于智能问答关联垂直问题域于开发问题域的方法及系统技术方案

技术编号:39414012 阅读:10 留言:0更新日期:2023-11-19 16:05
本发明专利技术公开了基于智能问答关联垂直问题域于开发问题域的方法及系统,属于

【技术实现步骤摘要】
基于智能问答关联垂直问题域于开发问题域的方法及系统


[0001]本专利技术涉及
AI NLP
智能客服领域,具体地说是一种基于智能问答关联垂直问题域于开发问题域的方法及系统


技术介绍

[0002]在
AI NLP
智能客服应用方面,多数场景下会需要特定垂直领域的知识问答,这是基础,在此之上,也需要开放问题域知识问答

如何将开放问题域和特定垂直领域知识结合是一个切实的需求

[0003]开放问题域与特定领域结合的实现方式目前通用方法具体如下:
[0004]①
将特定领域知识放到开放模型中做微调训练,然后将整合好的模型做统一部署,终端通过
API
的方式发起请求

推理

返回结果

该方法存在的问题为:如果使用开放问题域大模型做微调训练,那么私有化部署是一个无法完成的任务

部署资源需求大

硬件条件要求高;如果使用小规模开放问题域做开放域问题回答,由于训练集较小导致效果不理想

[0005]②
多领域知识模型通过分词

命名实体识别来指定由某个垂直领域模型回答问题,如果都不包含则使用开放问题与回答

该方法存在的问题为:由于需要先进性分词抽取

命名实体识别工作,再进行推理,导致响应速度慢

相关性

相似性低

需要人工标注等问题

对于小规模特定垂直领域模型来说,体验不佳

[0006]故如何兼顾特定垂直领域问答和开发领域问答效果与部署可行性的需求,同时兼顾不同领域问答快速响应的需求是目前亟待解决的技术问题


技术实现思路

[0007]本专利技术的技术任务是提供一种基于智能问答关联垂直问题域于开发问题域的方法及系统,来解决如何兼顾特定垂直领域问答和开发领域问答效果与部署可行性的需求,同时兼顾不同领域问答快速响应的需求的问题

[0008]本专利技术的技术任务是按以下方式实现的,一种基于智能问答关联垂直问题域于开发问题域的方法,该方法具体如下:
[0009]知识归集及结构化处理:将特征领域知识进行归集及结构化处理;
[0010]微调训练:将归集及结构化处理的数据输入到
Sentence Bert
模型进行微调训练,得到特定垂直领域知识智能问答模型,并将特定垂直领域知识智能问答模型私有化部署或者提供
Saas
服务;
[0011]获取开放问题域知识模型:通过
Saas
服务获取得到开放问题域知识模型;
[0012]相似度匹配:将问题输入到特定垂直领域知识智能问答模型,并将该问题与特定垂直领域知识问答库中的相似问题进行相似度匹配,即计算相似度值,并将相似度值进行降序排序后,再与设定阈值进行比较:
[0013]若相似度值小于设定阈值,则该问题为非特定领域知识,进而将该问题通过开发
问题域知识模型通用
API

Saas
服务做出解答;
[0014]若相似度值大于等于设定阈值,则该问题为特定垂直领域,进而将该问题通过特定垂直领域知识智能问答模型做出解答

[0015]作为优选,微调训练具体如下:
[0016]构建数据集:获取垂直领域问答数据构建数据集;
[0017]构建正样本和负样本:利用数据集分别构建正样本和负样本;
[0018]构建训练数据集:训练时,输入正样本相似性数值设置为1,即
(x1,y1)
=1;负样本设置为0,即
(x1,y2)
=0;
x1
为原始问题内容;
y1
为正样本问题内容;
y2
为负样本问题内容;每一个数据集中正样本为1‑2份,负样本为5份;将训练数据集输入到特定垂直领域知识智能问答模型中进行相似性训练;
[0019]设定训练参数:
learning rate

2e
‑5;
Epoch

3。
[0020]更优地,构建正样本和负样本具体如下:
[0021]从数据集中随机抽取指定份数问答对数据;
[0022]通过人工标注形式,将每个样本标注1‑2份正样本;
[0023]每一个样本都从指定份数问答对数据中随机抽取5份作为负样本

[0024]作为优选,相似度匹配具体如下:
[0025]相似度值计算公式具体如下:
[0026][0027]其中,
A

B
为两个
n
维向量;
A1

An
为向量
A
的其中任一维度数值,
B1

Bn
为向量
B
的其中任一维度数值;
A

[A1,A2,...,An];
B

[B1,B2,...,Bn];两个方向完全相同的向量的余弦相似度值为1,两个彼此相对的向量的余弦相似度值为
‑1;
[0028]通过
softmax
函数
(
激活函数
)
将余弦结果
[

1,1]数据映射到
[0,1]之间;其中,
softmax
函数公式具体如下:
[0029][0030]其中,
z
表示为一个向量;
z
i

z
j
是向量中的一个元素;
exp(z
i
)
表示指数函数求值

[0031]作为优选,将相似度值进行降序排序后,再与设定阈值进行比较具体如下:
[0032]若第一个相似度值接近1,并且降序排序后第一个相似度值后面的相似度值与1有
0.1
的差距,则直接返回召回的第一个问题的答案;
[0033]若召回的所有问题相似度值两两相差在
0.3
内,并且相似度值均高于
0.85
,则将召回的问题一并返回给用户,由用户选择真实的问题;
[0034]若召回的问题相似性与设定阈值相比较都在
0.1
范围内,则提示用户该问题召回效果不佳,该问题为若干问题中的其中一个,请用户自行做出选择

[0035]作为优选,特征领域知识包括智慧民生领域知识

智慧教育领域知识以及智慧医疗领域知识

[0036]作为优选,开放问题域知识模型采用开放的源
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,该方法具体如下:知识归集及结构化处理:将特征领域知识进行归集及结构化处理;微调训练:将归集及结构化处理的数据输入到
Sentence Bert
模型进行微调训练,得到特定垂直领域知识智能问答模型,并将特定垂直领域知识智能问答模型私有化部署或者提供
Saas
服务;获取开放问题域知识模型:通过
Saas
服务获取得到开放问题域知识模型;相似度匹配:将问题输入到特定垂直领域知识智能问答模型,并将该问题与特定垂直领域知识问答库中的相似问题进行相似度匹配,即计算相似度值,并将相似度值进行降序排序后,再与设定阈值进行比较:若相似度值小于设定阈值,则该问题为非特定领域知识,进而将该问题通过开发问题域知识模型通用
API

Saas
服务做出解答;若相似度值大于等于设定阈值,则该问题为特定垂直领域,进而将该问题通过特定垂直领域知识智能问答模型做出解答
。2.
根据权利要求1所述的基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,微调训练具体如下:构建数据集:获取垂直领域问答数据构建数据集;构建正样本和负样本:利用数据集分别构建正样本和负样本;构建训练数据集:训练时,输入正样本相似性数值设置为1,即
(x1,y1)
=1;负样本设置为0,即
(x1,y2)
=0;
x1
为原始问题内容;
y1
为正样本问题内容;
y2
为负样本问题内容;每一个数据集中正样本为1‑2份,负样本为5份;将训练数据集输入到特定垂直领域知识智能问答模型中进行相似性训练;设定训练参数:
learning rate

2e
‑5;
Epoch

3。3.
根据权利要求2所述的基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,构建正样本和负样本具体如下:从数据集中随机抽取指定份数问答对数据;通过人工标注形式,将每个样本标注1‑2份正样本;每一个样本都从指定份数问答对数据中随机抽取5份作为负样本
。4.
根据权利要求1所述的基于智能问答关联垂直问题域于开发问题域的方法,其特征在于,相似度匹配具体如下:相似度值计算公式具体如下:其中,
A

B
为两个
n
维向量;
A1

An
为向量
A
的其中任一维度数值,
B1

Bn
为向量
B
的其中任一维度数值;
A

[A1,A2,...,An]

B

[B1,B2,...,Bn]
;两个方向完全相同的向量的余弦相似度值为1,两个彼此相对的向量的余弦相似度值为
‑1;通过
softmax
函数将余弦结果
[

1,1]...

【专利技术属性】
技术研发人员:单文政张连超张玉新刘燕
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1