【技术实现步骤摘要】
词向量获取方法、文本纠错方法、装置和电子设备
[0001]本公开涉及自然语言处理
,尤其涉及一种词向量获取方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]自然语言处理任务目前多采用预训练语言模型,在下游任务中进行微调实现下游预测的方式。词往往通过词向量、位置编码等表示,但是,现有方式中获得词向量的方式仅基于训练语料本身,故词向量随着训练语料而发生变化,一个词在不同语境中语义变化不可解释,词与词之间的聚合关系不可解释,词与词之间的组合关系不可解释,好句子和坏句子之间的差别的本质不可解释,综上,词向量的表征力有待提高。
技术实现思路
[0003]本公开提供一种词向量获取方法、装置、电子设备及计算机可读存储介质,以解决相关技术中的词向量表征力不足的问题。
[0004]根据本公开实施例的第一方面,提供了一种词向量获取方法,包括:获取包括第一句和第二句的句子对、所述第一句中包括的第一词和所述第二句中包括的第二词的词义区别义素序列;其中,所述词义区别义素序列是在所述第一句和所述第二句仅所述 ...
【技术保护点】
【技术特征摘要】
1.一种词向量获取方法,其特征在于,包括:获取包括第一句和第二句的句子对、所述第一句中包括的第一词和所述第二句中包括的第二词的词义区别义素序列;其中,所述第一句和所述第二句仅所述第一词和所述第二词不同,所述词义区别义素序列是反映所述第一词与所述第二词的词义区别的义素序列;基于所述句子对和所述词义区别义素序列对机器学习模型进行训练;在所述机器学习模型训练过程中得到所述第一词的义素序列;基于所述第一词的义素序列中每个义素的义素向量获得所述第一词对应的词向量。2.如权利要求1所述的词向量获取方法,其特征在于,所述基于所述句子对和所述词义区别义素序列对机器学习模型进行训练,包括:从义素空间集中获取所述第一句和所述第二句中每个词对应的多个义素向量、所述词义区别义素序列中每个义素的义素向量;其中,所述义素空间集包括多个义素空间,每个义素空间基于多个词的义素列表中同一类型的义素构建,所述义素列表包括对应的词的词义基础义素和词义区别义素;基于获取到的义素向量对机器学习模型进行训练。3.如权利要求2所述的词向量获取方法,其特征在于,所述词的词义基础义素基于对所述词进行字形拆分的结果和/或基于词典中有关所述词的义项获得;所述词的词义区别义素基于通过所述词与所述词的近义词或反义词之间的词义对比,以及仅所述词不同的句子对之间的句义对比获得。4.如权利要求2所述的词向量获取方法,其特征在于,所述基于所述第一词的义素序列中每个义素的义素向量获得所述第一词对应的词向量,包括:从所述义素空间集获取所述义素序列中的每个义素的义素向量;基于获取的义素向量,获得与所述第一词对应的词向量。5.一种文本纠错方法,包括:获取第一文本;对所述第一文本进行分词处理;获取所述第一文本中的每个词的特征表示;其中,所述特征表示包括所述第一文本中每个词的第一词向量,所述第一词向量是基于对应词的第一义素向量获得的;基于所述特征表示对第二文本进行文本纠错;其中,所述第二文本与所述第一文本相同或者是基于所述第一文本获得的另一文本。6.如权利要求5所述的文本纠错方法,其特征在于,所述基于所述特征表示对第二文本进行文本纠错,包括:基于所述特征表示获得所述第二文本中的每个词的第二义素向量;基于所述第二文本中的每个词的第二义素向量对所述第二文本进行文本纠错。7.如权利要求6所述的文本纠错方法,其特征在于,所述基于所述第二文本中的每个词的第二义素向量对所述第二文本进行文本纠错,包括:基于所述第二文本中的每个词的第二义素向量与词向量之间的相似度,确定所述第二文本中的错误词;基于所述错误词的第二义素向量确定所述错误词的替换词,以及基于所述替换词对所述第二文本进行纠正。
8.如权利要求6所述的文本纠错方法,其特征在...
【专利技术属性】
技术研发人员:白安琪,蒋宁,夏粉,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。