基于脑电信号的词向量计算方法及装置制造方法及图纸

技术编号：14817843 阅读：93 留言：0更新日期：2017-03-15 11:48

本发明专利技术提供了一种基于脑电信号的词向量计算方法及装置，所述基于脑电信号的词向量计算方法包括：步骤S1，收集文本语料库，对文本语料库中的语料进行处理，得到以词组为单位的连续短语格式的语料；步骤S2，将连续短语格式的语料呈现给标注者，供标注者阅读，采集标注者阅读每一词组时的脑电信号；步骤S3，将采集到的词组对应的脑电信号作为预测目标，训练词向量，以当前词组为特征预测其上下文的脑电信号，构建基于脑电信号的词向量表示模型。本发明专利技术通过上述方案提高了词向量计算的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理
，尤其涉及一种基于脑电信号的词向量计算方法及装置。
技术介绍
在自然语言处理任务中，通常使用词向量作为原有文本中的词语的表示，以便数值化的机器学习算法能应用于文本数据。词向量模型的基本思想是：通过大量语料库训练，将某种语言中的每个词语映射成一个固定长度的向量，一般而言这个长度远小于该语言词典的大小，通常在几十到几百维。所有这些向量构成了词向量空间，而每一个向量就可为该空间中的一个点。在这个空间上引入“距离”的度量，就可以据词向量的距离来判断对应词语之间在句法、语义上的相似性。传统的词向量计算方法都是试图通过当前文本向量来尽可能准确地预测其上下文的向量来优化其表示的。在传统的词向量计算过程中，通过当前文本预测上下文是训练的首要目标。这种方法的主要缺陷有以下三点：1、只考虑到了词语的语法级别的属性，没有考虑到词语语义级别的属性，故通常训练得到的词向量只能表达词语之间较为浅层的关系；2、缺乏对人类语言认知过程的建模，忽略了重要的认知神经科学以及心理学特征；3、由于人类语言认识机制的复杂性，通过简单预测上下文得到的词向量无法体现不同自然语言处理任务的特性，普适性较差。
技术实现思路
本专利技术的目的在于提供一种基于脑电信号的词向量计算方法及装置，旨在提高词向量计算的准确性。本专利技术是这样实现的，一种基于脑电信号的词向量计算方法，所述方法包括以下步骤：步骤S1，收集文本语料库，对文本语料库中的语料进行处理，得到以词组为单位的连续短语格式的语料；步骤S2，将所述连续短语格式的语料呈现给标注者，供标注者阅读，采集标注者阅读每一词组时的脑...
基于脑电信号的词向量计算方法及装置

【技术保护点】
一种基于脑电信号的词向量计算方法，其特征在于，所述方法包括以下步骤：步骤S1，收集文本语料库，对文本语料库中的语料进行处理，得到以词组为单位的连续短语格式的语料；步骤S2，将所述连续短语格式的语料呈现给标注者，供标注者阅读，采集标注者阅读每一词组时的脑电信号；步骤S3，将采集到的词组对应的脑电信号作为预测目标，训练词向量，以当前词组的词向量表示为特征预测其上下文的脑电信号，构建基于脑电信号的词向量表示模型。

【技术特征摘要】
1.一种基于脑电信号的词向量计算方法，其特征在于，所述方法包括以下步骤：步骤S1，收集文本语料库，对文本语料库中的语料进行处理，得到以词组为单位的连续短语格式的语料；步骤S2，将所述连续短语格式的语料呈现给标注者，供标注者阅读，采集标注者阅读每一词组时的脑电信号；步骤S3，将采集到的词组对应的脑电信号作为预测目标，训练词向量，以当前词组的词向量表示为特征预测其上下文的脑电信号，构建基于脑电信号的词向量表示模型。2.根据权利要求1所述的基于脑电信号的词向量计算方法，其特征在于，所述步骤S1包括以下子步骤：步骤S11，收集文本语料库，所述文本语料库中的语料为句子或者篇章级别；步骤S12，去除所述文本语料库中长度超过第一预设值或长度小于二预设值的语料，得到预处理语料；步骤S13，将所述预处理语料进行分词处理得到词；步骤S14，利用组块分析技术，将所述词转化为词组，得到以连续短语格式的语料。3.根据权利要求2所述的基于脑电信号的词向量计算方法，其特征在于，所述步骤S3包括以下子步骤：步骤S31，对采集到的脑电信号进行降噪处理，得到降噪后的脑电信号；步骤S32，对所述降噪后的脑电信号进行空间投影和降维处理；步骤S33，将所述预处理语料中的所有词组初始化为词向量表示；步骤S34，遍历所述预处理语料中的所有词组，以当前词组的词向量表示为特征，使用神经网络回归模型预测其上下文的脑电信号，将预测的上下文的脑电信号与实际脑电信号进行对比，获取预测误差，根据预测误差调整当前词组的词向量表示，其中，所述实际脑电信号为标注者阅读所述上下文时的脑电信号；重复本步骤，直至预测误差小于预设阈值。4.根据权利要求3所述的基于脑电信号的词向量计算方法，其特征在于，所述步骤S31包括：对所述采集到的脑电信号进行处理，得到信噪比高于第三预设值的脑电信号；所述步骤S32包括：使用共空间模式算法对所述信噪比高于第三预设值的脑电信号进行空间投影和降维，得到维度低于第四预设值的脑电信号。5.根据权利要求3所述的基于脑电信号的词向量计算方法，其特征在于，对所述采集到的脑电信号进行降噪处理采用FASTICA算法。6.一种基于...

【专利技术属性】
技术研发人员：徐睿峰，杜嘉晨，桂林，黄锦辉，
申请(专利权)人：哈尔滨工业大学深圳研究生院，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人