温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明提出了一种基于文本局部和全局相似度过滤的数据清洗方法及装置,解决了现有技术中只考虑全局信息、并且CLIP模型对长文本兼容性差的问题。该方案考虑完整文本和图像内容的相似度以及文本内每句话和图像内容的相似度,可以有效的过滤掉生成文本中属于...该专利属于上海岩芯数智人工智能科技有限公司所有,仅供学习研究参考,未经过上海岩芯数智人工智能科技有限公司授权不得商用。
温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。
本发明提出了一种基于文本局部和全局相似度过滤的数据清洗方法及装置,解决了现有技术中只考虑全局信息、并且CLIP模型对长文本兼容性差的问题。该方案考虑完整文本和图像内容的相似度以及文本内每句话和图像内容的相似度,可以有效的过滤掉生成文本中属于...