内容处理方法、装置、设备及存储介质制造方法及图纸

技术编号:26342639 阅读:18 留言:0更新日期:2020-11-13 20:36
本申请公开了一种内容处理方法、装置、设备及存储介质,属于人工智能技术领域。本申请实施例,引入了图像数据,而不是局限于实体的名称,能够对实体更形象、更准确地进行表征,以根据图像数据得到的实体特征进行匹配,也能提高匹配结果的准确性,进而提高内容处理的准确性,相较于简单地基于实体名称进行匹配的方式,考虑的因素更全面,以更直观、更形象的数据为准进行特征表达,能够大大减小错误率,提高准确性。

Content processing method, device, equipment and storage medium

【技术实现步骤摘要】
内容处理方法、装置、设备及存储介质
本申请涉及人工智能
,特别涉及一种内容处理方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的发展,通过设备自动对待处理内容进行处理,将待处理内容中一些内容用已知内容来替代,从而统一对同一事物的表达,规范化语言表达,从而代替人工翻译操作,能够有效提高处理效率。目前,内容处理方法通常是从待处理内容中提取出实体的名称,将其转为词向量与候选实体的词向量进行相似度计算,将待处理内容中实体更换为相似度最大的候选实体。这种方法中实体名称转成的词向量并不能很好的表征该实体,简单地针对实体的名称进行实体匹配,错误率比较高,准确性较差。
技术实现思路
本申请实施例提供了一种内容处理方法、装置、设备及存储介质,能够提高内容处理的准确性。下面对本申请实施例提供的内容处理方法、装置、设备及存储介质进行介绍。一方面,提供了一种内容处理方法,所述方法包括:从待处理内容中,获取目标实体数据,所述目标实体数据包括目标实体对应的图像数据;对所述目标实体数据中图像数据进行特征提取,得到所述目标实体的图像特征;基于所述图像特征,获取所述目标实体的实体特征;对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配,确定所述目标实体对应的目标候选实体;根据所述目标实体对应的目标候选实体,对所述待处理内容进行更新。在一种可能实现方式中,所述内容处理模型的训练过程包括:获取样本实体数据,所述样本实体数据对应有标注数据,所述标注数据为所述样本实体数据中样本实体对应的目标候选实体;将所述样本实体数据输入初始内容处理模型中,由所述初始内容处理模型对所述样本实体进行特征提取,得到所述样本实体的实体特征,将所述样本实体的实体特征与至少两个候选实体的实体特征进行匹配,输出所述样本实体对应的预测候选实体;基于所述样本实体对应的预测候选实体和目标候选实体,对所述初始内容处理模型的模型参数进行更新,直至符合目标条件时停止,得到内容处理模型。在一种可能实现方式中,所述根据所述目标实体数据,获取所述目标实体的名称特征、关系特征或文本特征中的至少一项,包括下述至少一项:对所述目标实体数据中所述目标实体的名称进行嵌入处理,得到所述名称对应的词向量,将所述词向量作为所述名称特征;所述目标实体与所述待处理内容中其他实体之间的关系信息,对所述目标实体进行嵌入处理,得到所述目标实体的特征向量,将所述特征向量作为所述关系特征;根据所述目标实体数据的文本属性信息进行嵌入处理,得到所述文本属性信息的特征向量,将所述特征向量作为所述文本特征。在一种可能实现方式中,所述方法还包括:根据所述目标实体对应的目标候选实体,执行所述目标候选实体对应的目标功能。一方面,提供了一种内容处理装置,所述装置包括:获取模块,用于从待处理内容中,获取目标实体数据,所述目标实体数据包括目标实体对应的图像数据;提取模块,用于对所述目标实体数据中图像数据进行特征提取,得到所述目标实体的图像特征;所述获取模块,还用于基于所述图像特征,获取所述目标实体的实体特征;匹配模块,用于对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配,确定所述目标实体对应的目标候选实体;更新模块,用于根据所述目标实体对应的目标候选实体,对所述待处理内容进行更新。在一种可能实现方式中,所述目标实体数据还包括所述目标实体的名称、所述目标实体与所述待处理内容中其他实体之间的关系信息或文本属性信息的至少一项;所述获取模块还用于根据所述目标实体数据,获取所述目标实体的名称特征、关系特征或文本特征中的至少一项;对所述名称特征、关系特征或文本特征中的至少一项以及所述图像特征进行加权,获取所述目标实体的实体特征。在一种可能实现方式中,所述匹配模块用于基于所述目标实体的实体特征和所述至少两个候选实体的实体特征,对所述目标实体进行分类,得到分类结果,所述分类结果用于指示所述目标实体对应的目标候选实体。在一种可能实现方式中,所述匹配模块用于将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入级联的至少一个分类器中,由所述级联的至少一个分类器对所述目标实体进行分类,得到分类结果。在一种可能实现方式中,分类器的数量为至少两个;至少两个分类器串联;所述匹配模块用于:将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少两个分类器中,由所述至少两个分类器中前一个分类器对所述目标实体进行分类,基于分类结果,从所述至少两个候选实体的实体特征中筛选部分实体特征输入后一个分类器,将最后一个分类器的目标分类结果作为所述目标实体的分类结果。在一种可能实现方式中,所述匹配模块用于:将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入第一分类器中,由所述第一分类器对所述目标实体进行分类,得到第一分类结果;根据所述第一分类结果,将所述目标实体的实体特征与所述第一分类结果对应的至少两个候选实体的实体特征输入第二分类器中,由所述第二分类器对所述目标实体进行分类,得到第二分类结果;继续基于所述至少两个分类器中其他分类器根据所述第二分类器的第二分类结果进行分类,将所述至少两个分类器中最后一个分类器的目标分类结果作为所述目标实体的分类结果。在一种可能实现方式中,所述至少一个分类器的训练过程包括:获取样本实体数据中样本实体的实体特征以及至少两个候选实体的实体特征,一个样本实体对应一个目标候选实体;基于所述至少一个分类器,对所述样本实体数据中样本实体的实体特征以及至少两个候选实体的实体特征进行分类,确定样本实体对应的预测候选实体,在分类过程中,每个分类器的输入基于前一个分类器的分类结果中候选实体与目标候选实体的分类结果筛选得到;基于预测候选实体与目标候选实体,对至少一个分类器的模型参数进行更新。在一种可能实现方式中,所述至少一个分类器的数量为至少两个,所述基于所述至少一个分类器,对所述样本实体数据中样本实体的实体特征以及至少两个候选实体的实体特征进行分类,确定样本实体对应的预测候选实体,在分类过程中,每个分类器的输入基于前一个分类器的分类结果中候选实体与目标候选实体的分类结果筛选得到,包括:根据所述样本实体的实体特征与至少两个候选实体的实体特征的相似度,从至少两个候选实体中筛选出第一数量的第一候选实体,所述第一候选实体与样本实体的相似度大于或等于目标候选实体与样本实体的相似度;将第一候选实体的实体特征和样本实体的实体特征输入第一分类器中,由所述第一分类器分别输出每个第一候选实体的第一分类结果;从第一候选实体中筛选出第二候选实体,所述第二候选实体为第一分类结果中概率大于或等于目标候选实体的概率的第一候选实体;将第二候选实体输入第二分类器,由所述第二分类器分别输出每个第二候选实体的第二分类结果;本文档来自技高网...

【技术保护点】
1.一种内容处理方法,其特征在于,所述方法包括:/n从待处理内容中,获取目标实体数据,所述目标实体数据包括目标实体对应的图像数据;/n对所述目标实体数据中图像数据进行特征提取,得到所述目标实体的图像特征;/n基于所述图像特征,获取所述目标实体的实体特征;/n对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配,确定所述目标实体对应的目标候选实体;/n根据所述目标实体对应的目标候选实体,对所述待处理内容进行更新。/n

【技术特征摘要】
1.一种内容处理方法,其特征在于,所述方法包括:
从待处理内容中,获取目标实体数据,所述目标实体数据包括目标实体对应的图像数据;
对所述目标实体数据中图像数据进行特征提取,得到所述目标实体的图像特征;
基于所述图像特征,获取所述目标实体的实体特征;
对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配,确定所述目标实体对应的目标候选实体;
根据所述目标实体对应的目标候选实体,对所述待处理内容进行更新。


2.根据权利要求1所述的方法,其特征在于,所述目标实体数据还包括所述目标实体的名称、所述目标实体与所述待处理内容中其他实体之间的关系信息或文本属性信息的至少一项;
所述方法还包括:
根据所述目标实体数据,获取所述目标实体的名称特征、关系特征或文本特征中的至少一项;
所述基于所述图像特征,获取所述目标实体的实体特征,包括:
对所述名称特征、关系特征或文本特征中的至少一项以及所述图像特征进行加权,获取所述目标实体的实体特征。


3.根据权利要求2所述的方法,其特征在于,所述根据所述目标实体数据,获取所述目标实体的名称特征、关系特征或文本特征中的至少一项,包括:
分别对所述目标实体数据中所述目标实体的名称、所述目标实体与所述待处理内容中其他实体之间的关系信息或文本属性信息的至少一项进行嵌入处理,得到目标长度的名称特征、关系特征或文本特征中的至少一项;
所述对所述目标实体数据中图像数据进行特征提取,得到所述目标实体的图像特征,包括:
对所述目标实体数据中图像数据进行特征提取,得到所述目标实体的第一图像特征;
根据目标映射关系,将所述第一图像特征映射为目标长度的第二图像特征,将所述第二图像特征作为所述目标实体的图像特征。


4.根据权利要求1所述的方法,其特征在于,所述对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配,确定所述目标实体对应的目标候选实体,包括:
将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入级联的至少一个分类器中,由所述级联的至少一个分类器对所述目标实体进行分类,得到分类结果。


5.根据权利要求4所述的方法,其特征在于,分类器的数量为至少两个;至少两个分类器串联;
所述将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少一个分类器中,由所述至少一个分类器对所述目标实体进行分类,得到分类结果,包括:
将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少两个分类器中,由所述至少两个分类器中前一个分类器对所述目标实体进行分类,基于分类结果,从所述至少两个候选实体的实体特征中筛选部分实体特征输入后一个分类器,将最后一个分类器的目标分类结果作为所述目标实体的分类结果。


6.根据权利要求5所述的方法,其特征在于,所述将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少两个分类器中,由所述至少两个分类器中前一个分类器对所述目标实体进行分类,基于分类结果,从所述至少两个候选实体的实体特征中筛选部分实体特征输入后一个分类器,将最后一个分类器的目标分类结果作为所述目标实体的分类结果,包括:
将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入第一分类器中,由所述第一分类器对所述目标实体进行分类,得到第一分类结果;
根据所述第一分类结果,将所述目标实体的实体特征与所述第一分类结果对应的至少两个候选实体的实体特征输入第二分类器中,由所述第二分类器对所述目标实体进行分类,得到第二分类结果;
继续基于所述至少两个分类器中其他分类器根据所述第二分类器的第二分类结果进行分类,将所述至少两个分类器中最后一个分类器的目标分类结果作为所述目标实体的分类结果。


7.根据权利要求5所述的方法,其特征在于,所述至少一个分类器的训练过程包括:
获取样本实体数据中样本实体的实体特征以及至少两个候选实体的实体特征,一个样本实体对应一个目标候选实体;
基于所述至少一个分类器,对所述样本实体数据中样本实体的实体特...

【专利技术属性】
技术研发人员:张子恒刘华罗刘博向玥佳陈曦
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1