【技术实现步骤摘要】
支持极性区分和多义的词向量生成方法及装置
本申请涉及机器学习
,尤其涉及一种支持极性区分和多义的词向量生成方法及装置。
技术介绍
词向量是通过语言数字化,让计算机理解人类语言的一种词语表示方式。词向量能够通过一定维度的向量来表示一个词语,并揭示该词与其他词之间的关联关系,例如[0.792,-0.177,-0.107,0.109,-0.542,……],词向量一般由词向量训练模型中CBOW、Skip、GloVe等方法训练得出,词向量中各维度的具体值,根据收集的语料以及语料的训练方式确定。词向量可以应用在智能问答或文本分类过程中,通过对文本信息与词向量进行匹配,确定文本信息的含义。实际文本信息处理过程中,单个词语会对应多种语义,为了计算机能够识别,每种语义通过多个义元来表示。义元是一种最基本,不易于再分割意义的语义单元。例如,词语“苹果”,至少就表示两种语义,即苹果公司和水果,其中,苹果公司语义下对应多个义元,如:特定牌子、电脑等,而水果语义下对应的义元为:树、水果。实际使用中,收集每个词语以及词语对应下的语义和义元可以构成能够直接调用的资源文件,如由OEC、同义 ...
【技术保护点】
1.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:获取当前业务场景下的词向量模型和资源文件,所述资源文件包括当前业务场景下多个语义对应的义元;根据所述词向量模型确定目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;根据所述语义信息以及设定的目标词计算值确定运算权重;根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量。
【技术特征摘要】
1.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:获取当前业务场景下的词向量模型和资源文件,所述资源文件包括当前业务场景下多个语义对应的义元;根据所述词向量模型确定目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;根据所述语义信息以及设定的目标词计算值确定运算权重;根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量。2.根据权利要求1所述的词向量生成方法,其特征在于,根据所述语义信息以及设定的目标词计算值确定运算权重,包括:根据所述语义信息,统计当前目标词对应的所有语义下,义元以及每个义元出现的次数;根据所有所述义元出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;分别计算每个义元在所述语义信息中出现的次数与所述总值的比值,确定每个义元的运算权重以及目标词的运算权重。3.根据权利要求1所述的词向量生成方法,其特征在于,根据所述语义信息以及设定的目标词计算值确定运算权重,包括:统计所述语义信息中,包含义元数量最多的语义对应的所有义元以及每个义元出现的次数;根据所有所述义元在包含义元数量最多的语义下出现的总次数,以及与所述目标词计算值的和,确定权重计算的总值;分别计算每个义元出现的次数与所述总值的比值,确定每个义元的运算权重以及目标词的运算权重。4.根据权利要求1-3任意一项所述的词向量生成方法,其特征在于,所述目标词计算值根据所述目标词的区别判断程度,等于1或者等于所述语义信息中所有义元出现次数的总和。5.根据权利要求1所述的词向量生成方法,其特征在于,根据所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量,包括,在所述词向量模型中提取义元对应的词向量,并根据下式及所述运算权重,对所述原始词向量中每一维的值分别进行加权求和运算,生成所述目标词对应的新词向量:新词向量中第n维的值X0n=Xan×Wa+Xbn×Wb+Xcn×Wc+……+Xn×W;式中:Xan为义元a对应词向量中第n维的值,Wa为义元a的运算权重;Xbn为义元b对应词向量中第n维的值,Wb为义元b的运算权重;Xn为目标词对应词向量中第n维的值,W为目标词的运算权重。6.一种支持极性区分和多义的词向量生成方法,其特征在于,包括:获取当前业务场景下的词向量模型和资源文件,以及获取包含目标词的语句文本,所述资源文件包括当前业务场景下多个语义对应的义元;根据所述词向量模型确定所述目标词对应的原始词向量;提取所述目标词在所述资源文件中对应的语义信息,所述语义信息包括多个语义下的义元以及每个义元出现的次数;在所述语句文本中确定所述目标词的临近词集,所述邻近词集为所述语句文本中与所述目标词邻近的多个词语集合;根据所述邻近词集与所述语义信息,确定与所述目标词在当前业务场景下的最关联语义,以及所述最关联语义下对应的每个义元出现次数;根...
【专利技术属性】
技术研发人员:杨凯程,李健铨,蒋宏飞,
申请(专利权)人:北京玄一科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。