【技术实现步骤摘要】
用于确定主题的方法和装置
本申请实施例涉及计算机
,具体涉及用于确定主题的方法和装置。
技术介绍
随着智能设备的普及和用户数量的增长,人机交互方式也在改变,对话系统(例如,苹果公司的siri智能语音助手、亚马逊公司的Alex智能助理、中国联通智能客服等)逐步被普遍应用。对话系统的主题分割是将对话内容划分为多个段落,每个段落内的对话语句属于同一主题,不同段落对应不同主题。现有技术主要采用有监督学习方法,人工标注训练语料,再基于训练语料来训练模型来检测段落之间的分割位置。
技术实现思路
本申请实施例提出了用于确定主题的方法和装置。第一方面,本申请实施例提供了一种用于确定主题的方法,该方法包括:确定待识别语句序列;计算待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度,其中,主题模板集合中的每个主题模板对应目标领域内至少一个主题中的主题,主题模板包括主题阶段序列,主题阶段包括主题语句序列;根据关联参数确定待识别语句序列的主题,其中,关联参数包括待识别语句序列与主题模板集合中每个主题模板的相似度。第二方面,本申请实施例提供了一种用于确定主题的装置,该装置包括: ...
【技术保护点】
1.一种用于确定主题的方法,包括:确定待识别语句序列;计算所述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度,其中,所述主题模板集合中的每个主题模板对应所述目标领域内至少一个主题中的主题,主题模板包括主题阶段序列,主题阶段包括主题语句序列;根据关联参数确定所述待识别语句序列的主题,其中,所述关联参数包括所述待识别语句序列与所述主题模板集合中每个主题模板的相似度。
【技术特征摘要】
1.一种用于确定主题的方法,包括:确定待识别语句序列;计算所述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度,其中,所述主题模板集合中的每个主题模板对应所述目标领域内至少一个主题中的主题,主题模板包括主题阶段序列,主题阶段包括主题语句序列;根据关联参数确定所述待识别语句序列的主题,其中,所述关联参数包括所述待识别语句序列与所述主题模板集合中每个主题模板的相似度。2.根据权利要求1所述的方法,其中,所述计算所述待识别语句序列与所述主题模板集合中每个主题模板的相似度,包括:对于所述主题模板集合中的每个主题模板,执行以下第一相似度计算步骤:对于所述待识别语句序列中每个待识别语句,计算该待识别语句与该主题模板所包括的每个主题语句的相似度;利用动态规划算法,在至少一种映射方式中,以按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度最大化为目标,确定最优映射方式,其中,映射方式用于将所述待识别语句序列中每个待识别语句对应到该主题模板中的主题阶段;将按照所确定的最优映射方式计算得到的所述待识别语句序列与该主题模板的相似度确定为所述待识别语句序列与该主题模板的相似度。3.根据权利要求2所述的方法,其中,所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第二相似度计算步骤计算得到的,所述第二相似度计算步骤包括:对于所述待识别语句序列中的每个待识别语句,根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度,确定该待识别语句与对应的映射主题阶段的相似度,所述与该待识别语句对应的映射主题阶段为按照该种映射方式,将该待识别语句映射至的该主题模板所包括的主题阶段;将所述待识别语句序列中各个待识别语句与对应的映射主题阶段的相似度的平均值确定为按照该种映射方式该待识别语句与该主题模板的相似度。4.根据权利要求2所述的方法,其中,所述按照该种映射方式计算得到的所述待识别语句序列与该主题模板的相似度是通过第三相似度计算步骤计算得到的,所述第三相似度计算步骤包括:对于所述待识别语句序列中的每个待识别语句,确定与该待识别语句对应的映射主题阶段,所述与该待识别语句对应的映射主题阶段为按照该种映射方式将该待识别语句映射至的该主题模板所包括的主题阶段;对于该主题模板所包括的每个主题阶段,根据该主题阶段所包括的主题语句序列中各主题语句与映射至该主题阶段的各待识别语句之间的相似度,确定所述待识别语句序列与该主题阶段对应的相似度;将所述待识别语句序列与该主题模板所包括的各主题阶段对应的相似度的平均值确定为所述待识别语句序列与该主题模板的相似度。5.根据权利要求3所述的方法,其中,所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度,确定该待识别语句与对应的映射主题阶段的相似度,包括:将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度中的最大值,确定为该待识别语句与对应的映射主题阶段的相似度。6.根据权利要求3所述的方法,其中,所述根据与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度,确定该待识别语句与对应的映射主题阶段的相似度,包括:将与该待识别语句对应的映射主题阶段所包括的主题语句序列中各主题语句与该待识别语句的相似度的加权平均值,确定为该待识别语句与对应的映射主题阶段的相似度。7.根据权利要求1所述的方法,其中,所述根据关联参数确定所述待识别语句序列的主题,包括:将所述主题模板集合中与所述待识别语句序列的相似度最大的主题模板对应的主题确定为所述待识别语句序列的主题。8.根据权利要求1-7中任一所述的方法,其中,所述确定待识别语句序列,包括:实时获取用户使用终端设备输入的当前对话语句以及历史上一主题对话语句序列;将在所述历史上一主题对话语句序列的末尾添加所述当前对话语句后所得到的新的语句序列确定为所述待识别语句序列。9.根据权利要求8所述的方法,其中,所述关联参数还包括:所述历史上一主题对话语句序列的主题和相似度,所述历史上一主题对话语句序列的相似度为所述历史上一主题对话语句序列与所述历史上一主题对话语句序列的主题对应的主题模板之间的相似度;以及所述根据关联参数确定所述待识别语句序列的主题,包括:将所述主题模板集合中各主体模板与所述待识别语句序列的相似度中的最大值确定为当前相似度;确定上一相似度减去所述当前相似度的差值是否大于预设相似度差值阈值,其中,所述上一相似度为所述历史上一主题对话语句序列的相似度;响应于确定大于,执行以下主题更换步骤:将所述历史上一主题对话语句序列和对应的主题作为历史主题段落添加到历史主题段落序列中,其中,历史主题段落包括语句序列和对应的主题,清空所述历史上一主题对话语句序列,将所述当前对话语句添加到所述历史上一主题对话语句序列,计算所述历史上一主题对话语句序列与所述主题模板集合中每个主题模板的相似度,将所述主题模板集合中与所述历史上一主题对话语句序列的相似度最大的主题模板对应的主题和相似度分别确定为所述历史上一主题对话语句序列的主题和相似度;响应于确定不大于,将所述当前对话语句添加到所述历史上一主题对话语句序列的末尾。10.一种用于确定主题的装置,包括:第一确定单元,被配置成确定待识别语句序列;计算单元,被配置成计算所述待识别语句序列与目标领域内主题模板集合中每个主题模板的相似度,其中,所述主题模板集合中的每个主题模板对应所述目标领域内...
【专利技术属性】
技术研发人员:王经委,张傲,刘佳祥,孙宇,李芝,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。