【技术实现步骤摘要】
本专利技术属于自然语言处理、大数据分析等,具体涉及一种基于可复用的通用cnn模型的短文本理解方法。
技术介绍
1、随着互联网和通信技术(如物联网和5g)的发展,在线信息资源的形式从单一(如纯文本或纯图片)逐渐发展为多样化(如多模态形式)。例如,某个在线学习课程可以包含文本信息(如学生讨论)、音视频信息(如录制的课程内容)和图像(如附带的幻灯片)。在电子商务领域,亚马逊或淘宝上的商品列表可以包含文本、图像,甚至短视频信息。因此,单独处理单一形式的信息已不足以完全理解这些在线资源。这些变化为各种大数据应用领域(包括在线学习、数字健康、交通信息系统等)中的智能多模态信息处理工具带来了新的挑战。
2、针对不同格式信息的处理与融合研究仍然相对孤立。例如,缺乏能够处理不同类型信息(即多模态信息)任务的稳健通用模型。因此,通常需要在处理系统中使用多个模型来处理和解释多模态信息。例如在医学领域开放教育资源的工作中(参考文献:b.zhao,s.xu,s.lin,x.luo,and l.duan,"a new visual navigation
...【技术保护点】
1.一种基于可复用的通用CNN模型的短文本理解方法,其特征在于:采用解析短文本内容的CNN框架执行短文本理解;所述解析短文本内容的CNN框架包括:上游组件和下游组件;所述上游组件采用预训练的语言模型,用于将原始文本输入转换为密集的词嵌入;下游组件采用任务特定的CNN模型,用于接收密集的词嵌入并生成针对特定NLP任务的最终预测。
2.根据权利要求1所述的基于可复用的通用CNN模型的短文本理解方法,其特征在于:所述上游组件使用预训练的语言模型L生成维度为m的密集词嵌入e;对于短文本中t=(w1,w2,...,wi)的每个词w,映射过程定义为L(wi)=>ei,
...【技术特征摘要】
1.一种基于可复用的通用cnn模型的短文本理解方法,其特征在于:采用解析短文本内容的cnn框架执行短文本理解;所述解析短文本内容的cnn框架包括:上游组件和下游组件;所述上游组件采用预训练的语言模型,用于将原始文本输入转换为密集的词嵌入;下游组件采用任务特定的cnn模型,用于接收密集的词嵌入并生成针对特定nlp任务的最终预测。
2.根据权利要求1所述的基于可复用的通用cnn模型的短文本理解方法,其特征在于:所述上游组件使用预训练的语言模型l生成维度为m的密集词嵌入e;对于短文本中t=(w1,w2,...,wi)的每个词w,映射过程定义为l(wi)=>ei,ei∈rm,其中ei是一个m维的实值向量,rm是向量的集合。
3.根据权利要求2所述的基于可复用的通用cnn模型的短文本理解方法,其特征在于:将所述短文本表示为二维‘图像’p,通过将所有嵌入一起堆叠形成;这一过程表示为p=stack(e1,e2,...,ei);为了防止在此过程中信息的丢失,嵌入的顺序与原始文本序列保持一致。
4.根据权利要求1所述的基于可复用的通用cnn模型的短文本理解方法,其特征在于:
5.根据权利要求1...
【专利技术属性】
技术研发人员:林佳胤,赵云盟,沈俊,林铭炜,张媛媛,
申请(专利权)人:福建师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。