内容处理方法、装置、设备及存储介质制造方法及图纸

技术编号：26342639 阅读：18 留言：0更新日期：2020-11-13 20:36

本申请公开了一种内容处理方法、装置、设备及存储介质，属于人工智能技术领域。本申请实施例，引入了图像数据，而不是局限于实体的名称，能够对实体更形象、更准确地进行表征，以根据图像数据得到的实体特征进行匹配，也能提高匹配结果的准确性，进而提高内容处理的准确性，相较于简单地基于实体名称进行匹配的方式，考虑的因素更全面，以更直观、更形象的数据为准进行特征表达，能够大大减小错误率，提高准确性。

Content processing method, device, equipment and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
内容处理方法、装置、设备及存储介质
本申请涉及人工智能
，特别涉及一种内容处理方法、装置、设备及存储介质。
技术介绍
随着人工智能技术的发展，通过设备自动对待处理内容进行处理，将待处理内容中一些内容用已知内容来替代，从而统一对同一事物的表达，规范化语言表达，从而代替人工翻译操作，能够有效提高处理效率。目前，内容处理方法通常是从待处理内容中提取出实体的名称，将其转为词向量与候选实体的词向量进行相似度计算，将待处理内容中实体更换为相似度最大的候选实体。这种方法中实体名称转成的词向量并不能很好的表征该实体，简单地针对实体的名称进行实体匹配，错误率比较高，准确性较差。
技术实现思路
本申请实施例提供了一种内容处理方法、装置、设备及存储介质，能够提高内容处理的准确性。下面对本申请实施例提供的内容处理方法、装置、设备及存储介质进行介绍。一方面，提供了一种内容处理方法，所述方法包括：从待处理内容中，获取目标实体数据，所述目标实体数据包括目标实体对应的图像数据；对所述目标实体数据中图像数据进行特征提取，得到所述目标实体的图像特征；基于所述图像特征，获取所述目标实体的实体特征；对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配，确定所述目标实体对应的目标候选实体；根据所述目标实体对应的目标候选实体，对所述待处理内容进行更新。在一种可能实现方式中，所述内容处理模型的训练过程包括：获取样本实体数据，所述样本实体数据对应有标注...

【技术保护点】
1.一种内容处理方法，其特征在于，所述方法包括：/n从待处理内容中，获取目标实体数据，所述目标实体数据包括目标实体对应的图像数据；/n对所述目标实体数据中图像数据进行特征提取，得到所述目标实体的图像特征；/n基于所述图像特征，获取所述目标实体的实体特征；/n对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配，确定所述目标实体对应的目标候选实体；/n根据所述目标实体对应的目标候选实体，对所述待处理内容进行更新。/n

【技术特征摘要】
1.一种内容处理方法，其特征在于，所述方法包括：
从待处理内容中，获取目标实体数据，所述目标实体数据包括目标实体对应的图像数据；
对所述目标实体数据中图像数据进行特征提取，得到所述目标实体的图像特征；
基于所述图像特征，获取所述目标实体的实体特征；
对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配，确定所述目标实体对应的目标候选实体；
根据所述目标实体对应的目标候选实体，对所述待处理内容进行更新。

2.根据权利要求1所述的方法，其特征在于，所述目标实体数据还包括所述目标实体的名称、所述目标实体与所述待处理内容中其他实体之间的关系信息或文本属性信息的至少一项；
所述方法还包括：
根据所述目标实体数据，获取所述目标实体的名称特征、关系特征或文本特征中的至少一项；
所述基于所述图像特征，获取所述目标实体的实体特征，包括：
对所述名称特征、关系特征或文本特征中的至少一项以及所述图像特征进行加权，获取所述目标实体的实体特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标实体数据，获取所述目标实体的名称特征、关系特征或文本特征中的至少一项，包括：
分别对所述目标实体数据中所述目标实体的名称、所述目标实体与所述待处理内容中其他实体之间的关系信息或文本属性信息的至少一项进行嵌入处理，得到目标长度的名称特征、关系特征或文本特征中的至少一项；
所述对所述目标实体数据中图像数据进行特征提取，得到所述目标实体的图像特征，包括：
对所述目标实体数据中图像数据进行特征提取，得到所述目标实体的第一图像特征；
根据目标映射关系，将所述第一图像特征映射为目标长度的第二图像特征，将所述第二图像特征作为所述目标实体的图像特征。

4.根据权利要求1所述的方法，其特征在于，所述对所述目标实体的实体特征与至少两个候选实体的实体特征进行匹配，确定所述目标实体对应的目标候选实体，包括：
将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入级联的至少一个分类器中，由所述级联的至少一个分类器对所述目标实体进行分类，得到分类结果。

5.根据权利要求4所述的方法，其特征在于，分类器的数量为至少两个；至少两个分类器串联；
所述将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少一个分类器中，由所述至少一个分类器对所述目标实体进行分类，得到分类结果，包括：
将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少两个分类器中，由所述至少两个分类器中前一个分类器对所述目标实体进行分类，基于分类结果，从所述至少两个候选实体的实体特征中筛选部分实体特征输入后一个分类器，将最后一个分类器的目标分类结果作为所述目标实体的分类结果。

6.根据权利要求5所述的方法，其特征在于，所述将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入至少两个分类器中，由所述至少两个分类器中前一个分类器对所述目标实体进行分类，基于分类结果，从所述至少两个候选实体的实体特征中筛选部分实体特征输入后一个分类器，将最后一个分类器的目标分类结果作为所述目标实体的分类结果，包括：
将所述目标实体的实体特征和所述至少两个候选实体的实体特征输入第一分类器中，由所述第一分类器对所述目标实体进行分类，得到第一分类结果；
根据所述第一分类结果，将所述目标实体的实体特征与所述第一分类结果对应的至少两个候选实体的实体特征输入第二分类器中，由所述第二分类器对所述目标实体进行分类，得到第二分类结果；
继续基于所述至少两个分类器中其他分类器根据所述第二分类器的第二分类结果进行分类，将所述至少两个分类器中最后一个分类器的目标分类结果作为所述目标实体的分类结果。

7.根据权利要求5所述的方法，其特征在于，所述至少一个分类器的训练过程包括：
获取样本实体数据中样本实体的实体特征以及至少两个候选实体的实体特征，一个样本实体对应一个目标候选实体；
基于所述至少一个分类器，对所述样本实体数据中样本实体的实体特...

【专利技术属性】
技术研发人员：张子恒，刘华罗，刘博，向玥佳，陈曦，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人