【技术实现步骤摘要】
一种基于智能问答场景的回答标注方法、装置及相关产品
[0001]本申请涉及数据处理
,尤其涉及一种基于智能问答场景的回答标注方法
、
装置及相关产品
。
技术介绍
[0002]随着人工智能技术的研究与进步,人工智能技术在多个领域展开研究和应用,例如常见的大语言模型
(LLM
,
Large Language Model)
,大语言模型可以处理多种自然语言任务,如智能问答等
。
为了使大语言模型能够更好地进行智能问答,在预训练好的大语言模型基础上对大语言模型进行微调,微调过程主要分为三个步骤:
1、
监督学习;
2、
训练
RM(Reward Model
,奖励模型
)
;
3、
强化学习
。
其中
RM
的训练效果对微调后的大语言模型在表现上有显著影响,而
RM
的训练效果在很大程度上依赖于人工标注对于训练数据的质量
。
[0003]因此在相关技术中
Anthropic(
人工智能
)
公司的标注方案着重于关注
RM
的训练数据的人工标注质量,
Anthropic
公司的人工标注方案为:利用步骤1中的
SFT(supervised fine tuning,
有监督微调模型
)
为一个问题生成两个回答,然后 ...
【技术保护点】
【技术特征摘要】
1.
一种基于智能问答场景的回答标注方法,其特征在于,包括:获取目标问题的多个回答以及所述目标问题的正确回答;其中所述目标问题为智能问答场景中提问对象输入的问题,所述多个回答为有监督微调模型基于所述目标问题输出的回答;利用标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则,获得所述多个回答对应的标注得分;其中所述回答内容占比规则用于判断回答中正确内容的占比,所述回答内容显著性规则用于判断回答中正确内容是否具有显著性,所述回答内容引用占比规则用于判断回答中引用所述正确回答的片段占比,所述回答内容质量规则用于判断回答中是否存在编造内容,所述回答内容重复规则用于判断回答中是否存在重复内容,所述回答内容逻辑规则用于判断回答中内容逻辑是否正确;所述正确内容为所述正确回答中的内容,所述编造内容为在所述正确回答中未找到的内容;对所述多个回答对应的标注得分进行比较,确定出所述多个回答对应的标注得分中得分最高的标注得分;将所述得分最高的标注得分对应的回答标注为所述目标问题的目标回答
。2.
根据权利要求1所述的方法,其特征在于,所述利用标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则,获得所述多个回答对应的标注得分,包括:利用所述标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则,对同一回答逐一进行打分,获得同一回答针对于所述标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则分别对应的初始标注得分;对所述同一回答针对于所述标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则分别对应的初始标注得分进行处理,获得所述同一回答对应的标注得分
。3.
根据权利要求2所述的方法,其特征在于,所述利用所述标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则,对同一回答逐一进行打分,获得同一回答针对于所述标注规则集合中的回答内容占比规则
、
回答内容显著性规则
、
回答内容引用占比规则
、
回答内容质量规则
、
回答内容重复规则和回答内容逻辑规则分别对应的初始标注得分,包括:利用所述标注规则集合中的回答内容占比规则判断所述同一回答中正确内容的占比,并根据所述回答内容占比规则的判断结果对所述同一回答进行打分,获得所述同一回答针对于所述回答内容占比规则的初始标注得分;利用所述标注规则集合中的回答内容显著性规则判断所述同一回答中正确内容是否具有显著性,并根据所述回答内容显著性规则的判断结果对所述同一回答进行打分,获得所述同一回答针对于所述回答内容显著性规则的初始标注得分;利用所述标注规则集合中的回答内容引用占比规则判断所述同一回答中引用所述正确回答的片段占比,并根据所述回答内容引用占比规则的判断结果对所述同一回答进行打
分,获得所述同一回答针对于所述回答内容引用占比规则的初始标注得分;利用所述标注规则集合中的回答内容质量规则判断所述同一回答中是否存在编造内容,并根据所述回答内容质量规则的判断结果对所述同一回答进行打分,获得所述同一回答针对于所述回答内容质量规则的初始标注得分;利用所述标注规则集合中的回答内容重复规则判断所述同一回答中是否存在重复内容,并根据所述回答内容重复规则的判断结果对所述同一回答进行打分,获得所述同一回答针对于所述回答内容重复规则的初始标注得分;利用所述标注规则集合中的回答内容逻辑规则判断所述同一回答中内容逻辑是否正确,并根据所述回答内容逻辑规则的判断结果对所述同一回答进行打分,获得所述同一回答针对于所述回答内容逻辑规则的初始标注得分
。4.
根据权利要求3所述的方法,其特征在于,所述利用所述标注规则集合中的回答内容显著性规则判断所述同一回答中正确内容是否具有显著性...
【专利技术属性】
技术研发人员:王佩璐,邓超,魏琳,李千,刘艾婷,沈卓,梁海金,
申请(专利权)人:腾讯科技武汉有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。