基于可复用的通用CNN模型的短文本理解方法技术

技术编号:43858576 阅读:22 留言:0更新日期:2024-12-31 18:47
本发明专利技术提供一种基于可复用的通用CNN模型的短文本理解方法,采用解析短文本内容的CNN框架执行短文本理解;所述解析短文本内容的CNN框架包括:上游组件和下游组件;所述上游组件采用预训练的语言模型,用于将原始文本输入转换为密集的词嵌入;下游组件采用任务特定的CNN模型,用于接收密集的词嵌入并生成针对特定NLP任务的最终预测。

【技术实现步骤摘要】

本专利技术属于自然语言处理、大数据分析等,具体涉及一种基于可复用的通用cnn模型的短文本理解方法。


技术介绍

1、随着互联网和通信技术(如物联网和5g)的发展,在线信息资源的形式从单一(如纯文本或纯图片)逐渐发展为多样化(如多模态形式)。例如,某个在线学习课程可以包含文本信息(如学生讨论)、音视频信息(如录制的课程内容)和图像(如附带的幻灯片)。在电子商务领域,亚马逊或淘宝上的商品列表可以包含文本、图像,甚至短视频信息。因此,单独处理单一形式的信息已不足以完全理解这些在线资源。这些变化为各种大数据应用领域(包括在线学习、数字健康、交通信息系统等)中的智能多模态信息处理工具带来了新的挑战。

2、针对不同格式信息的处理与融合研究仍然相对孤立。例如,缺乏能够处理不同类型信息(即多模态信息)任务的稳健通用模型。因此,通常需要在处理系统中使用多个模型来处理和解释多模态信息。例如在医学领域开放教育资源的工作中(参考文献:b.zhao,s.xu,s.lin,x.luo,and l.duan,"a new visual navigation system fo本文档来自技高网...

【技术保护点】

1.一种基于可复用的通用CNN模型的短文本理解方法,其特征在于:采用解析短文本内容的CNN框架执行短文本理解;所述解析短文本内容的CNN框架包括:上游组件和下游组件;所述上游组件采用预训练的语言模型,用于将原始文本输入转换为密集的词嵌入;下游组件采用任务特定的CNN模型,用于接收密集的词嵌入并生成针对特定NLP任务的最终预测。

2.根据权利要求1所述的基于可复用的通用CNN模型的短文本理解方法,其特征在于:所述上游组件使用预训练的语言模型L生成维度为m的密集词嵌入e;对于短文本中t=(w1,w2,...,wi)的每个词w,映射过程定义为L(wi)=>ei,ei∈Rm,其中ei...

【技术特征摘要】

1.一种基于可复用的通用cnn模型的短文本理解方法,其特征在于:采用解析短文本内容的cnn框架执行短文本理解;所述解析短文本内容的cnn框架包括:上游组件和下游组件;所述上游组件采用预训练的语言模型,用于将原始文本输入转换为密集的词嵌入;下游组件采用任务特定的cnn模型,用于接收密集的词嵌入并生成针对特定nlp任务的最终预测。

2.根据权利要求1所述的基于可复用的通用cnn模型的短文本理解方法,其特征在于:所述上游组件使用预训练的语言模型l生成维度为m的密集词嵌入e;对于短文本中t=(w1,w2,...,wi)的每个词w,映射过程定义为l(wi)=>ei,ei∈rm,其中ei是一个m维的实值向量,rm是向量的集合。

3.根据权利要求2所述的基于可复用的通用cnn模型的短文本理解方法,其特征在于:将所述短文本表示为二维‘图像’p,通过将所有嵌入一起堆叠形成;这一过程表示为p=stack(e1,e2,...,ei);为了防止在此过程中信息的丢失,嵌入的顺序与原始文本序列保持一致。

4.根据权利要求1所述的基于可复用的通用cnn模型的短文本理解方法,其特征在于:

5.根据权利要求1...

【专利技术属性】
技术研发人员:林佳胤赵云盟沈俊林铭炜张媛媛
申请(专利权)人:福建师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1