一种面向人机交互多轮对话语料的加速标注方法及装置制造方法及图纸

技术编号:24207921 阅读:34 留言:0更新日期:2020-05-20 15:29
本发明专利技术公开了一种面向人机交互多轮对话语料的加速标注方法及装置,该方法包括:获取待标注用户话语及所述待标注用户话语的上下文;对待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分;对待标注用户话语与会话行为进行语义相似度计算,以得到第一语义相似度得分;对待标注用户话语的上下文与会话行为进行字面相似度计算,以得到第二字面相似度得分;对待标注用户话语的上下文与会话行为进行语义相似度计算,以得到第二语义相似度得分;根据第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及第二语义相似度得分,确定候选推荐标注。通过本发明专利技术的技术方案,不仅减少标注产生的错误,而且加快标注速度。

An accelerated annotation method and device for human-computer interaction multi turn dialogue corpus

【技术实现步骤摘要】
一种面向人机交互多轮对话语料的加速标注方法及装置
本专利技术涉及计算机及信息服务
,特别涉及一种面向人机交互多轮对话语料的加速标注方法及装置。
技术介绍
在智能客服、儿童早教机等人机交互应用场景领域,系统日志中存在大量的多轮对话语料。对话语料中的会话行为(DialogAct,DA)的识别,对理解用户真实意图起着关键作用。会话行为描述了用户话语(userutterance)在会话过程中的语义、交际等交互作用。传统的语料加工方式采用人工标注,即人工将用户话语标注成预定义好的会话行为,从而驱动机器学习技术学习到用户话语的真实意图。人工标注存在的问题:一方面,多轮对话语料中的会话行为种类较多;另一方面,用户话语的真实意图往往需要依赖上下文加以明确;这两方面的问题,使得标注员在标注多轮对话语料时不仅费事费力,而且容易导致标注错误。
技术实现思路
本专利技术提供一种面向人机交互多轮对话语料的加速标注方法及装置。所述技术方案如下:根据本专利技术实施例的第一方面,提供了一种面向人机交互多轮对话语料的加速标注方法,包括:本文档来自技高网...

【技术保护点】
1.一种面向人机交互多轮对话语料的加速标注方法,其特征在于,包括:/n获取待标注用户话语及所述待标注用户话语的上下文;/n对所述待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分;/n对所述待标注用户话语与所述会话行为进行语义相似度计算,以得到第一语义相似度得分;/n对所述待标注用户话语的上下文与所述会话行为进行字面相似度计算,以得到第二字面相似度得分;/n对所述待标注用户话语的上下文与所述会话行为进行语义相似度计算,以得到第二语义相似度得分;/n根据所述第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及所述第二语义相似度得分,确定候选推荐标注。/n

【技术特征摘要】
1.一种面向人机交互多轮对话语料的加速标注方法,其特征在于,包括:
获取待标注用户话语及所述待标注用户话语的上下文;
对所述待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分;
对所述待标注用户话语与所述会话行为进行语义相似度计算,以得到第一语义相似度得分;
对所述待标注用户话语的上下文与所述会话行为进行字面相似度计算,以得到第二字面相似度得分;
对所述待标注用户话语的上下文与所述会话行为进行语义相似度计算,以得到第二语义相似度得分;
根据所述第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及所述第二语义相似度得分,确定候选推荐标注。


2.如权利要求1所述的方法,其特征在于,所述对所述待标注用户话语与会话行为进行字面相似度计算,以得到第一字面相似度得分,包括:
对所述待标注用户话语进行分词,以获取第一n-gram信息;
根据所述第一n-gram信息确定第一查询词表征;
获取语料中已标注的用户话语;
通过第一预设模型对所述已标注的用户话语进行检索,以得到与所述待标注用户话语相似度最高的预设数目个已标注的用户话语及第一相似度;
通过第一预设算法对所述第一相似度进行计算,以得到所述第一字面相似度得分。


3.如权利要求1所述的方法,其特征在于,所述对所述待标注用户话语与所述会话行为进行语义相似度计算,以得到第一语义相似度得分,包括:
通过预训练的无监督语言模型对所述待标注用户话语进行计算,以得到第一句子语义向量;
获取语料中所述会话行为的第一预设句子语义向量;
通过第二预设算法对所述第一预设句子语义向量与所述第一句子语义向量进行计算,以得到所述第一语义相似度得分。


4.如权利要求1所述的方法,其特征在于,所述对所述待标注用户话语的上下文与所述会话行为进行字面相似度计算,以得到第二字面相似度得分,包括:
对所述待标注用户话语的上下文进行分词,以获取第二n-gram信息;
根据所述第二n-gram信息确定第二查询词表征;
获取语料中已标注用户话语的上下文文本;
通过第二预设模型对所述已标注用户话语的上下文文本进行检索,以得到与所述待标注用户话语的上下文相似度排名最高的预设数目个已标注用户话语的上下文文本及第二相似度;
通过第三预设算法对所述第二相似度进行计算,以得到所述第二字面相似度得分。


5.如权利要求1所述的方法,其特征在于,所述对所述待标注用户话语的上下文与所述会话行为进行语义相似度计算,以得到第二语义相似度得分,包括:
通过所述预训练的无监督语言模型对所述待标注用户话语的上下文进行计算,以得到第二句子语义向量;
获取语料中所述会话行为的第二预设句子语义向量;
通过第四预设算法对所述第二预设句子语义向量与所述第二句子语义向量进行计算,以得到所述第二语义相似度得分。


6.如权利要求1所述的方法,其特征在于,所述根据所述第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及所述第二语义相似度得分,确定候选推荐标注,包括:
通过第五预设算法对所述第一字面相似度得分、第一语义相似度得分、第二字面相似度得分及所述第二语义相似度进行计算,以得到会话行为的...

【专利技术属性】
技术研发人员:王星光陈峰
申请(专利权)人:云知声智能科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1