【技术实现步骤摘要】
上下文场景数据识别方法及装置
[0001]本专利技术涉及深度学习领域,尤其涉及一种上下文场景数据识别方法及装置。
技术介绍
[0002]在训练人机交互模型时,需要对模型输入大量的对话语料,这些语料往往需要人工标注出上下文的意图关系,由于工作量巨大,需要耗费大量的人力物力。
[0003]现在也有一些方案,例如通过聚类的方法对相似的上下文文本聚类,但是该方法只能词的表面意思中得到聚类结果,这会遗漏字面上没有关联,但是主题上具有上下文关系的语料数据,而只留下字面意思相近的语料,训练出的交互模型,也不能充分地理解主体上相关,但是字面不相关的语料,因此,还需要通过更智能化的方式,获取到更充分的上下文对话数据,建立更合适的模型。
技术实现思路
[0004]为解决上述的现有技术问题中的至少其一,本专利技术的目的在于提供一种更准确地识别出上下文关系的上下文场景数据识别方法及装置
。
[0005]为实现上述专利技术目的,本专利技术一实施方式提供一种上下文场景数据识别方法,包括如下步骤:
[000 ...
【技术保护点】
【技术特征摘要】
1.一种上下文场景数据识别方法,其特征在于,包括如下步骤:将上下文文本数据中的上文数据和下文数据分别输入单句主题模型,得到上文主题表示和下文主题表示,其中,所述单句主题模型是经大量的单句文本数据训练得到的模型;将上下文文本数据输入上下文主题模型,得到上下文主题表示,其中,所述上下文主题模型是经大量的上下文数据训练得到的模型;计算所述上文主题表示、所述下文主题表示、所述上下文主题表示三者中任意两者的相似度;判断相似度是否满足阈值条件,若是,则将所述上文数据和所述下文数据判断为上下文场景数据。2.根据权利要求1所述的上下文场景数据识别方法,其特征在于,基于LDA主题模型,建立所述单句主题模型和所述上下文主题模型。3.根据权利要求1所述的上下文场景数据识别方法,其特征在于,训练所述单句主题模型和所述上下文主题模型的文本数据内容不同。4.根据权利要求1所述的上下文场景数据识别方法,其特征在于,所述步骤判断相似度是否满足阈值条件还包括:若否,则通过所述上文数据和所述下文数据重新训练所述单句主题模型和所述上下文主题模型。5.根据权利要求1所述的上下文场景数据识别方法,其特征在于,所述单句主题模型和所述上下文主题模型都是使用语义表示框架,将文本内容使用相同结构共享参数的网络进行编码,获得文本的向量表示形式。6.根据权利要求5所述的上下文场景数据识别方法,其特征在于,所述步骤计算所述上文主题表示、所述下文主题表示、所述上下文主题表示三者中任意两者的相似度包括:计算所述上文主题表示和所述下文主题表示的第一相似度,取值范围在(0,1);计算所述上文主题表示和所述上下文主题表示...
【专利技术属性】
技术研发人员:马坚,段庆龙,曾谁飞,孔令磊,张景瑞,李敏,刘卫强,
申请(专利权)人:海尔智家股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。