基于脑电信号的词向量计算方法及装置制造方法及图纸

技术编号:14817843 阅读:93 留言:0更新日期:2017-03-15 11:48
本发明专利技术提供了一种基于脑电信号的词向量计算方法及装置,所述基于脑电信号的词向量计算方法包括:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本发明专利技术通过上述方案提高了词向量计算的准确性。

【技术实现步骤摘要】

本专利技术属于自然语言处理
,尤其涉及一种基于脑电信号的词向量计算方法及装置
技术介绍
在自然语言处理任务中,通常使用词向量作为原有文本中的词语的表示,以便数值化的机器学习算法能应用于文本数据。词向量模型的基本思想是:通过大量语料库训练,将某种语言中的每个词语映射成一个固定长度的向量,一般而言这个长度远小于该语言词典的大小,通常在几十到几百维。所有这些向量构成了词向量空间,而每一个向量就可为该空间中的一个点。在这个空间上引入“距离”的度量,就可以据词向量的距离来判断对应词语之间在句法、语义上的相似性。传统的词向量计算方法都是试图通过当前文本向量来尽可能准确地预测其上下文的向量来优化其表示的。在传统的词向量计算过程中,通过当前文本预测上下文是训练的首要目标。这种方法的主要缺陷有以下三点:1、只考虑到了词语的语法级别的属性,没有考虑到词语语义级别的属性,故通常训练得到的词向量只能表达词语之间较为浅层的关系;2、缺乏对人类语言认知过程的建模,忽略了重要的认知神经科学以及心理学特征;3、由于人类语言认识机制的复杂性,通过简单预测上下文得到的词向量无法体现不同自然语言处理任务的特性,普适性较差。
技术实现思路
本专利技术的目的在于提供一种基于脑电信号的词向量计算方法及装置,旨在提高词向量计算的准确性。本专利技术是这样实现的,一种基于脑电信号的词向量计算方法,所述方法包括以下步骤:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将所述连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组的词向量表示为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本专利技术的进一步的技术方案是,所述步骤S1包括以下子步骤:步骤S11,收集文本语料库,所述文本语料库中的语料为句子或者篇章级别;步骤S12,去除所述文本语料库中长度超过第一预设值或长度小于第二预设值的语料,得到预处理语料;步骤S13,将所述预处理语料进行分词处理得到词;步骤S14,利用组块分析技术,将所述词转化为词组,得到以连续短语格式的语料。本专利技术的进一步的技术方案是,所述步骤S3包括以下子步骤:步骤S31,对采集到的脑电信号进行降噪处理,得到降噪后的脑电信号;步骤S32,对所述降噪后的脑电信号进行空间投影和降维处理;步骤S33,将所述预处理语料中的所有词组初始化为词向量表示;步骤S34,遍历所述预处理语料中的所有词组,以当前词组的词向量表示为特征,使用神经网络回归模型预测其上下文的脑电信号,将预测的上下文的脑电信号与实际脑电信号进行对比,获取预测误差,根据预测误差调整当前词组的词向量表示,其中,所述实际脑电信号为标注者阅读所述上下文时的脑电信号;重复本步骤,直至预测误差小于预设阈值。本专利技术的进一步的技术方案是,所述步骤S31包括:对所述采集到的脑电信号进行处理,得到信噪比高于第三预设值的脑电信号;所述步骤S32包括:使用共空间模式算法对所述信噪比高于第三预设值的脑电信号进行空间投影和降维,得到维度低于第四预设值的脑电信号。本专利技术的进一步的技术方案是,对所述采集到的脑电信号进行降噪处理采用FASTICA算法。本专利技术还提供了一种基于脑电信号的词向量计算装置,所述装置包括:收集模块,用于收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;采集模块,用于将所述连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;构建模块,用于将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组的词向量表示为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。本专利技术的进一步的技术方案是,所述收集模块包括:收集单元,用于收集文本语料库,所述文本语料库中的语料为句子或者篇章级别;预处理单元,用于去除所述文本语料库中长度超过第一预设值或长度小于第二预设值的语料,得到预处理语料;分词单元,用于将所述预处理语料进行分词处理得到词;转化单元,用于利用组块分析技术,将所述词转化为词组,得到以连续短语格式的语料。本专利技术的进一步的技术方案是,所述构建模块包括:降噪单元,用于对采集到的脑电信号进行降噪处理,得到降噪后的脑电信号;降维单元,用于对所述降噪后的脑电信号进行空间投影和降维处理;初始化单元,用于将所述预处理语料中的所有词组初始化为词向量表示;构建单元,用于遍历所述预处理语料中的所有词组,以当前词组的词向量表示为特征,使用神经网络回归模型预测其上下文的脑电信号,将预测的上下文的脑电信号与实际脑电信号进行对比,获取预测误差,根据预测误差调整当前词组的词向量表示,其中,所述实际脑电信号为标注者阅读所述上下文时的脑电信号;重复本步骤,直至预测误差小于预设阈值。本专利技术的进一步的技术方案是,所述降噪单元还用于,对所述采集到的脑电信号进行处理,得到信噪比高于第三预设值的脑电信号;所述降维单元还用于,使用共空间模式算法对所述信噪比高于第三预设值的脑电信号进行空间投影和降维,得到维度低于第四预设值的脑电信号。本专利技术的进一步的技术方案是,所述降噪模块还用于采用FASTICA算法对所述采集到的脑电信号进行降噪处理。本专利技术的有益效果是:本专利技术提供的基于脑电信号的词向量计算方法及装置,通过上述方案:收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;将连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型,提高了词向量计算的准确性。附图说明图1是本专利技术基于脑电信号的词向量计算方法第一实施例的流程示意图;图2是本专利技术基于脑电信号的词向量计算方法第二实施例步骤S1的细化流程示意图;图3是本专利技术基于脑电信号的词向量计算方法第三实施例步骤S3的细化流程示意图;图4是本专利技术基于脑电信号的词向量计算装置第一实施例的功能模块示意图;图5是本专利技术基于脑电信号的词向量计算装置第二实施例采集模块的细化功能模块示意图;图6是本专利技术基于脑电信号的词向量计算装置第三实施例构建模块的细化功能模块示意图。附图标记:收集模块-10:收集单元-101;预处理单元-102;分词单元-103;转化单元-104;采集模块-20;构建模块-30:降噪单元-301;降维单元-302;初始化单元-303;构建单元-304。具体实施方式本专利技术实施例的解决方案主要是:收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;将所述连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。请参照图1,图1是本专利技术基于脑电信号的词向量计算方法第一实施例的流程示意图,如图1所示,本专利技术基于脑电信号的词向量计算方法第一实施例包括以下步骤:步骤S1,收集文本语料库,对文本语料本文档来自技高网...
基于脑电信号的词向量计算方法及装置

【技术保护点】
一种基于脑电信号的词向量计算方法,其特征在于,所述方法包括以下步骤:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将所述连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组的词向量表示为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。

【技术特征摘要】
1.一种基于脑电信号的词向量计算方法,其特征在于,所述方法包括以下步骤:步骤S1,收集文本语料库,对文本语料库中的语料进行处理,得到以词组为单位的连续短语格式的语料;步骤S2,将所述连续短语格式的语料呈现给标注者,供标注者阅读,采集标注者阅读每一词组时的脑电信号;步骤S3,将采集到的词组对应的脑电信号作为预测目标,训练词向量,以当前词组的词向量表示为特征预测其上下文的脑电信号,构建基于脑电信号的词向量表示模型。2.根据权利要求1所述的基于脑电信号的词向量计算方法,其特征在于,所述步骤S1包括以下子步骤:步骤S11,收集文本语料库,所述文本语料库中的语料为句子或者篇章级别;步骤S12,去除所述文本语料库中长度超过第一预设值或长度小于二预设值的语料,得到预处理语料;步骤S13,将所述预处理语料进行分词处理得到词;步骤S14,利用组块分析技术,将所述词转化为词组,得到以连续短语格式的语料。3.根据权利要求2所述的基于脑电信号的词向量计算方法,其特征在于,所述步骤S3包括以下子步骤:步骤S31,对采集到的脑电信号进行降噪处理,得到降噪后的脑电信号;步骤S32,对所述降噪后的脑电信号进行空间投影和降维处理;步骤S33,将所述预处理语料中的所有词组初始化为词向量表示;步骤S34,遍历所述预处理语料中的所有词组,以当前词组的词向量表示为特征,使用神经网络回归模型预测其上下文的脑电信号,将预测的上下文的脑电信号与实际脑电信号进行对比,获取预测误差,根据预测误差调整当前词组的词向量表示,其中,所述实际脑电信号为标注者阅读所述上下文时的脑电信号;重复本步骤,直至预测误差小于预设阈值。4.根据权利要求3所述的基于脑电信号的词向量计算方法,其特征在于,所述步骤S31包括:对所述采集到的脑电信号进行处理,得到信噪比高于第三预设值的脑电信号;所述步骤S32包括:使用共空间模式算法对所述信噪比高于第三预设值的脑电信号进行空间投影和降维,得到维度低于第四预设值的脑电信号。5.根据权利要求3所述的基于脑电信号的词向量计算方法,其特征在于,对所述采集到的脑电信号进行降噪处理采用FASTICA算法。6.一种基于...

【专利技术属性】
技术研发人员:徐睿峰杜嘉晨桂林黄锦辉
申请(专利权)人:哈尔滨工业大学深圳研究生院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1