本公开关于一种词向量获取方法、文本纠错方法、装置和电子设备。所述词向量获取方法,包括:获取包括第一句和第二句的句子对、所述第一句中包括的第一词和所述第二句中包括的第二词的词义区别义素序列;其中,所述第一句和所述第二句仅所述第一词和所述第二词不同,所述词义区别义素序列是反映所述第一词与所述第二词的词义区别的义素序列;基于所述句子对和所述词义区别义素序列对机器学习模型进行训练;在所述机器学习模型训练过程中得到所述第一词的义素序列;基于所述第一词的义素序列中每个义素的义素向量获得所述第一词对应的词向量。词向量。词向量。
【技术实现步骤摘要】
词向量获取方法、文本纠错方法、装置和电子设备
[0001]本公开涉及自然语言处理
,尤其涉及一种词向量获取方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]自然语言处理任务目前多采用预训练语言模型,在下游任务中进行微调实现下游预测的方式。词往往通过词向量、位置编码等表示,但是,现有方式中获得词向量的方式仅基于训练语料本身,故词向量随着训练语料而发生变化,一个词在不同语境中语义变化不可解释,词与词之间的聚合关系不可解释,词与词之间的组合关系不可解释,好句子和坏句子之间的差别的本质不可解释,综上,词向量的表征力有待提高。
技术实现思路
[0003]本公开提供一种词向量获取方法、装置、电子设备及计算机可读存储介质,以解决相关技术中的词向量表征力不足的问题。
[0004]根据本公开实施例的第一方面,提供了一种词向量获取方法,包括:获取包括第一句和第二句的句子对、所述第一句中包括的第一词和所述第二句中包括的第二词的词义区别义素序列;其中,所述词义区别义素序列是在所述第一句和所述第二句仅所述第一词和所述第二词不同的情况下,对所述句子对进行句义对比得到的反映所述第一词与所述第二词的词义区别的义素序列;基于所述句子对和所述词义区别义素序列对机器学习模型进行训练;在所述机器学习模型训练过程中得到所述第一词的义素序列;基于所述第一词的义素序列中每个义素的义素向量获得所述第一词对应的词向量。
[0005]可以看出,由于所述第一词对应的词向量是基于所述第一词的义素序列中每个义素的义素向量获得的,并且所述第一词的义素序列是在基于所述句子对和所述词义区别义素序列对机器学习模型进行训练的过程中得到的,而所述词义区别义素序列是在所述第一句和所述第二句仅所述第一词和所述第二词不同的情况下,对所述句子对进行句义对比得到的反映所述第一词与所述第二词的词义区别的义素序列,因此,在所述机器学习模型训练过程中得到的所述第一词的义素序列能够反映所述第一词与所述第二词的词义区别,使得基于所述第一词的义素序列中每个义素的义素向量获得的词向量考虑了词与词本身在义素上的区别,进而提高了词向量的表征力。
[0006]根据本公开实施例的第二方面,提供了一种文本纠错方法,包括:获取第一文本;对所述第一文本进行分词处理;获取所述第一文本中的每个词的特征表示;其中,所述特征表示包括所述第一文本中每个词的第一词向量,所述第一词向量是基于对应词的第一义素向量获得的;基于所述特征表示对第二文本进行文本纠错;其中,所述第二文本与所述第一文本相同或者是基于所述第一文本获得的另一文本。
[0007]可以看出,在对获取的第一文本进行分词处理之后,基于包括所述第一文本中每个词的第一词向量的特征表示对第二文本(与第一文本相同或者是与基于第一文本获得的
另一文本)进行纠错,而由于基于对应词的义素向量获得的所述第一词向量表征力更强,因此,基于包括这样的词向量的所述特征表示进行文本纠错的效果更好。根据本公开实施例的第三方面,提供了一种词向量获取装置,包括:数据获取单元,被配置为获取包括第一句和第二句的句子对、所述第一句中包括的第一词和所述第二句中包括的第二词的词义区别义素序列;其中,所述词义区别义素序列是在所述第一句和所述第二句仅所述第一词和所述第二词不同的情况下对所述句子对进行句义对比得到的反映所述第一词与所述第二词的词义区别的义素序列;训练单元,被配置为基于所述句子对和所述词义区别义素序列对机器学习模型进行训练;在所述机器学习模型训练过程中得到所述第一词的义素序列;词向量获取单元,被配置为基于所述第一词的义素序列中每个义素的义素向量获得与所述第一词对应的词向量。
[0008]根据本公开实施例的第四方面,提供了一种文本纠错装置,包括:文本获取单元,被配置为获取第一文本;分词单元,被配置为对所述第一文本进行分词处理;特征表示单元,被配置为获取所述第一文本中的每个词的特征表示;其中,所述特征表示包括所述第一文本中每个词的第一词向量,所述第一词向量是基于对应词的第一义素向量获得的;纠错单元,被配置为基于所述特征表示对第二文本进行文本纠错;其中,所述第二文本与所述第一文本相同或者是基于所述第一文本获得的另一文本。
[0009]根据本公开实施例的第五方面,提供了一种电子设备,所述电子设备包括:至少一个处理器;至少一个存储计算机可执行指令的存储器,其中,所述计算机可执行指令在被所述至少一个处理器运行时,促使所述至少一个处理器执行如上所述的词向量获取方法或文本纠错方法。
[0010]根据本公开实施例的第六方面,提供了一种存储指令的计算机可读存储介质,其特征在于,当所述指令被至少一个处理器运行时,促使所述至少一个处理器执行如上所述的词向量获取方法或文本纠错方法。
[0011]根据本公开实施例的第七方面,提供了一种计算机软件,包括计算机指令,所述计算机指令被处理器执行时实现如上所述的词向量获取方法或文本纠错方法。
[0012]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
[0013]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的示例实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
[0014]图1是本公开的实施例可以应用于其中的示例性系统架构;
[0015]图2是本公开实施例的词向量获取方法的流程图;
[0016]图3是示出本公开实施例的词向量获取方法的示意图;
[0017]图4是本公开实施例的文本纠错方法的流程图;
[0018]图5是示出本公开实施例的文本纠错方法的示例的示意图;
[0019]图6是本公开实施例的词向量获取装置的框图;
[0020]图7是本公开实施例的文本纠错装置的框图;
[0021]图8是根据本公开实施例的电子设备的框图。
具体实施方式
[0022]为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
[0023]需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0024]在此需要说明的是,在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况:(1)包括A;(2)包括B;(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”,即表示如下三种并列的情本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种词向量获取方法,其特征在于,包括:获取包括第一句和第二句的句子对、所述第一句中包括的第一词和所述第二句中包括的第二词的词义区别义素序列;其中,所述第一句和所述第二句仅所述第一词和所述第二词不同,所述词义区别义素序列是反映所述第一词与所述第二词的词义区别的义素序列;基于所述句子对和所述词义区别义素序列对机器学习模型进行训练;在所述机器学习模型训练过程中得到所述第一词的义素序列;基于所述第一词的义素序列中每个义素的义素向量获得所述第一词对应的词向量。2.如权利要求1所述的词向量获取方法,其特征在于,所述基于所述句子对和所述词义区别义素序列对机器学习模型进行训练,包括:从义素空间集中获取所述第一句和所述第二句中每个词对应的多个义素向量、所述词义区别义素序列中每个义素的义素向量;其中,所述义素空间集包括多个义素空间,每个义素空间基于多个词的义素列表中同一类型的义素构建,所述义素列表包括对应的词的词义基础义素和词义区别义素;基于获取到的义素向量对机器学习模型进行训练。3.如权利要求2所述的词向量获取方法,其特征在于,所述词的词义基础义素基于对所述词进行字形拆分的结果和/或基于词典中有关所述词的义项获得;所述词的词义区别义素基于通过所述词与所述词的近义词或反义词之间的词义对比,以及仅所述词不同的句子对之间的句义对比获得。4.如权利要求2所述的词向量获取方法,其特征在于,所述基于所述第一词的义素序列中每个义素的义素向量获得所述第一词对应的词向量,包括:从所述义素空间集获取所述义素序列中的每个义素的义素向量;基于获取的义素向量,获得与所述第一词对应的词向量。5.一种文本纠错方法,包括:获取第一文本;对所述第一文本进行分词处理;获取所述第一文本中的每个词的特征表示;其中,所述特征表示包括所述第一文本中每个词的第一词向量,所述第一词向量是基于对应词的第一义素向量获得的;基于所述特征表示对第二文本进行文本纠错;其中,所述第二文本与所述第一文本相同或者是基于所述第一文本获得的另一文本。6.如权利要求5所述的文本纠错方法,其特征在于,所述基于所述特征表示对第二文本进行文本纠错,包括:基于所述特征表示获得所述第二文本中的每个词的第二义素向量;基于所述第二文本中的每个词的第二义素向量对所述第二文本进行文本纠错。7.如权利要求6所述的文本纠错方法,其特征在于,所述基于所述第二文本中的每个词的第二义素向量对所述第二文本进行文本纠错,包括:基于所述第二文本中的每个词的第二义素向量与词向量之间的相似度,确定所述第二文本中的错误词;基于所述错误词的第二义素向量确定所述错误词的替换词,以及基于所述替换词对所述第二文本进行纠正。
8.如权利要求6所述的文本纠错方法,其特征在...
【专利技术属性】
技术研发人员:白安琪,蒋宁,夏粉,吴海英,肖冰,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。