信息处理方法、装置及存储介质制造方法及图纸

技术编号:24456280 阅读:27 留言:0更新日期:2020-06-10 15:38
本公开是关于一种信息处理方法、装置及存储介质,包括:对第一语料数据进行分词处理,得到包含有至少一个词语的第二语料数据;基于第一预训练模型对所述第二语料数据所包含所述至少一个的词语进行处理,得到所述第二语料数据所对应的第一特征向量序列;基于第二预训练模型对所述第一语料数据所包含的字符进行处理,得到所述第一语料数据所对应的第二特征向量序列;基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量。本公开中,通过分别将语料数据基于字和基于词进行向量表征,融合了多元特征,能够使得分类时获取的训练样本更加丰富多样,以使训练得到的模型的准确率和泛化效果大幅提升。

Information processing method, device and storage medium

【技术实现步骤摘要】
信息处理方法、装置及存储介质
本公开涉及计算机通信领域,尤其涉及一种信息处理方法、装置及存储介质。
技术介绍
上个世纪九十年代以来,互联网快速发展,到现在进入大数据时代,互联网容纳了海量的信息和数据,包括文本、声音、图像、视频等。这里所说的文本是媒体新闻、科技、报告、电子邮件、技术专利、书籍等。与图像声音数据相比,文本占用的网络资源少,更容易上传和下载,这使得网络资源中大部分是以文本的形式出现。如何有效的组织和管理这些文本信息,并快速、准确、全面的从中找到用户所需要的文本信息是当前信息科学技术所面临的一大挑战。早期文本分类主要是基于知识工程,通过手工定义一些规则来对文本进行分类,这种方法耗时费力,还需要对某一领域有足够的了解,才能提炼出合适的规则,且在训练样本较少的情况下,会使得分类的准确性降低。
技术实现思路
本公开提供一种信息处理方法、装置及存储介质。根据本公开实施例的第一方面,提供一种信息处理方法,包括:对第一语料数据进行分词处理,得到包含有至少一个词语的第二语料数据;>基于第一预训练模型本文档来自技高网...

【技术保护点】
1.一种信息处理方法,其特征在于,包括:/n对第一语料数据进行分词处理,得到包含有至少一个词语的第二语料数据;/n基于第一预训练模型对所述第二语料数据所包含的所述至少一个词语进行处理,得到所述第二语料数据所对应的第一特征向量序列;/n基于第二预训练模型对所述第一语料数据所包含的字符进行处理,得到所述第一语料数据所对应的第二特征向量序列;/n基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量。/n

【技术特征摘要】
1.一种信息处理方法,其特征在于,包括:
对第一语料数据进行分词处理,得到包含有至少一个词语的第二语料数据;
基于第一预训练模型对所述第二语料数据所包含的所述至少一个词语进行处理,得到所述第二语料数据所对应的第一特征向量序列;
基于第二预训练模型对所述第一语料数据所包含的字符进行处理,得到所述第一语料数据所对应的第二特征向量序列;
基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量。


2.根据权利要求1所述的方法,其特征在于,所述第一特征向量序列和所述第二特征向量序列分别包含有至少一个特征向量;所述基于所述第一特征向量序列和所述第二特征向量序列,得到目标特征向量,包括:
基于卷积神经网络模型对所述第一特征向量序列进行处理,从所述第一特征向量序列中提取第一特征向量;
基于长短期记忆模型对所述第一特征向量序列进行处理,从所述第一特征向量序列中提取第二特征向量;
基于所述第二预训练模型对所述第二特征向量序列进行处理,从所述第二特征向量序列中提取第三特征向量;
基于所述第一特征向量、所述第二特征向量和所述第三特征向量,通过拼接处理得到目标特征向量。


3.根据权利要求2所述的方法,其特征在于,所述基于所述第一特征向量、所述第二特征向量和所述第三特征向量,通过拼接处理得到目标特征向量,包括:
在所述第一特征向量的末端拼接所述第二特征向量,并在拼接后的第二特征向量的末端拼接所述第三特征向量,得到拼接后的特征向量;
对所述拼接后的特征向量进行降维处理,得到所述目标特征向量。


4.根据权利要求1所述的方法,其特征在于,所述第二语料数据所包含的词语具有词标识;所述基于第一预训练模型对所述第二语料数据进行处理,得到所述第二语料数据所对应的第一特征向量序列,包括:
确定所述第二语料数据包含的各所述词语的词标识;
基于各所述词语的词标识查询所述第一预训练模型的设定词向量映射表,从所述设定词向量映射表中确定各所述词语的特征向量,其中,所述设定词向量映射表包含有各所述词语的词标识与各所述特征向量之间的映射关系;
将确定的各所述词语的特征向量按照第一设定顺序进行排列,得到所述第一特征向量序列。


5.根据权利要求1所述的方法,其特征在于,所述第一语料数据所包含的字符具有字标识;所述基于第二预训练模型对所述第一语料数据进行处理,得到所述第一语料数据所对应的第二特征向量序列,包括:
确定所述第一语料数据包含的各所述字符的字标识;
所述第二预训练模型对所述第一语料数据中各所述字符的上下文进行分析,得到分析结果;
基于所述分析结果以及所述字符的字标识,查询所述第二预训练模型的设定字向量映射表,从所述设定词向量映射表中确定各所述字符的特征向量,其中,所述设定字向量映射表包含有各所述字符的字标识与各所述特征向量之间的映射关系;
将确定的各所述字符的特征向量按照第二设定顺序进行排列,得到所述第二特征向量序列。


6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于设定分类模型对所述目标特征向量进行分类处理,得到分类结果。


7.一种信息处理装置,其特征在于,包括:
第一处...

【专利技术属性】
技术研发人员:徐泽宇邓雄文
申请(专利权)人:北京松果电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1