一种文本处理方法、装置以及计算设备制造方法及图纸

技术编号:24498727 阅读:30 留言:0更新日期:2020-06-13 04:07
本发明专利技术公开了一种文本处理方法、装置以及计算设备。方法包括:基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。

A text processing method, device and computing equipment

【技术实现步骤摘要】
一种文本处理方法、装置以及计算设备
本专利技术涉及自然语言处理领域,具体涉及一种文本处理方法、装置以及计算设备。
技术介绍
复杂的机器学习语言模型,特别是基于神经网络的语言模型都有庞大的模型参数,这使得模型对于存储、运行的环境都有了更高的要求;而其中很大的一部分参数都占用在模型的词向量表示上,模型的词表可高达20万词以上,每个词向量的维度少则上百维。于此同时,虽然有非常大的词表,但是这个词表一般是模型训练时就固定的,而现实中每天都有新的词语被专利技术出来,这些不在词表中的词(称为表外词或未登录词)对于固定词表的模型来说处理起来非常困难。例如,在电商搜索场景下,为了吸引用户的注意,不少商家使用的商品名都是一些新词汇,比如“超甜蕉”、“上海青”、“奶青”等,这些词都不是固定词表能够很好覆盖的。而且庞大的词表使得模型参数无法控制,对于线上资源的要求也大大提高。现有的一些模型压缩技术大都是对于模型本身进行通用的有损或无损压缩,而并不是从模型的设计上入手,所以压缩效率有限。例如,对于通用的模型压缩算法,一种方法简单来说是剔除模型中不是很重要的参数,这种方法很容易对模型的性能造成损失;另一种是使用小模型对大模型进行学习的方法,得到参数较少的小模型,这种方法一方面可能会损失性能,另一方面会增加模型的训练成本。对于未登录词的问题,一种方法是将所有低频词都统一用一个符号表示,模型会学习一个统一的表示来代表所有低频词,这种方法将所有低频词一起处理,不可避免地损失每个词本身特定的含义,使得系统性能下降;另一种方法是定期对系统词表进行更新,但是语言模型本身训练成本比较高,训练时间长,定期更新的开销比较大。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的文本处理方法、装置以及计算设备。根据本专利技术的一个方面,提供了一种文本处理方法,包括:基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。可选地,在根据本专利技术的文本处理方法中,所述词语包括中文词、日文词和韩文词中的至少一个。可选地,在根据本专利技术的文本处理方法中,所述词语为中文词,所述单字为汉字,相应地,基于中文词中汉字的笔画信息,生成笔画向量矩阵,包括:对中文词包括的各汉字进行笔画分解;分别将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵。可选地,在根据本专利技术的文本处理方法中,所述分别将各汉字的各笔画转换为笔画向量,包括:将汉字的各笔画组合成n-gram集合;对于每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n;分别将笔画的各j-gram元素映射为第一向量,并将各第一向量拼接为该笔画对应的笔画向量。可选地,在根据本专利技术的文本处理方法中,所述分别将笔画的各j-gram元素映射为笔画向量,包括:对于每个j-gram元素,通过预设的映射矩阵将该j-gram元素映射为第一向量。可选地,根据本专利技术的文本处理方法,还包括:获取目标词表中各中文词的词向量;基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值。可选地,在根据本专利技术的文本处理方法中,所述基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值,包括:对于每个词向量,将该词向量与隐藏层表示进行点积,得到二者的相似度值;对相似度值进行softmax函数处理,得到该词向量所表示的中文词对应的概率值。可选地,在根据本专利技术的文本处理方法中,所述中文词序列为待纠错词的上文,所述目标词表为待纠错词对应的候选词构成的集合。可选地,根据本专利技术的文本处理方法,还包括:输出预定数目个概率值最大的候选词,作为纠错词。可选地,根据本专利技术的文本处理方法,还包括:获取第一中文词序列对应的第一隐藏层表示和第二中文词序列对应的第二隐藏层表示;基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度。可选地,在根据本专利技术的文本处理方法中,所述基于第一隐藏层表示和第二隐藏层表示,确定第一中文词序列和第二中文词序列的文本相似度,包括:对第一隐藏层表示和第二隐藏层表示进行点积,并对点积结果进行sigmoid函数处理,得到文本相似度概率值。可选地,在根据本专利技术的文本处理方法中,所述第一神经网络包括卷积神经网络。可选地,在根据本专利技术的文本处理方法中,所述第二神经网络包括循环神经网络。根据本专利技术的一个方面,提供了一种文本处理装置,包括:笔画向量生成模块,适于基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;第一神经网络处理模块,适于将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;第二神经网络处理模块,适于获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。根据本专利技术的一个方面,提供了一种计算设备,包括:一个或多个处理器;存储器;以及一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据上述的方法中的任一方法的指令。根据本专利技术的文本处理方案,利用表意文字本身的特点,使用笔画信息来表示单字,并进一步表示词语,使得模型在词向量层的参数大大减少。另外,使用笔画来表示单字,使得语言模型可以在不更新参数的条件下,处理各种输入以及输出的未登录词,并能够更好地建模词语本身的含义,使得模型性能提升,同时也更适合在实际场景中使用。。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了根据本专利技术一个实施例的语言模型100的示意图;图2示出了根据本专利技术一个实施例的计算设备200的示意图;图3示出了根据本专利技术一个实施例的文本处理方法300的流程图;图4示出了利用本专利技术实施例的语言模型进行查询纠错的方法400的示意图;图5示出了利用本专利技术实施例的语言模型进行文本相似度计算的方法500的示意图;图6示出了根据本专利技术一个实施例的文本处本文档来自技高网
...

【技术保护点】
1.一种文本处理方法,包括:/n基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;/n将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;/n获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。/n

【技术特征摘要】
1.一种文本处理方法,包括:
基于词语中单字的笔画信息,生成笔画向量矩阵,所述单字为表意文字,所述笔画为单字的最小连笔单位;
将笔画向量矩阵输入到第一神经网络中进行处理,得到词语的词向量;
获取词语序列中各词语的词向量,并输入到第二神经网络中进行处理,得到该词语序列的隐藏层表示,所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。


2.如权利要求1所述处理方法,所述词语包括中文词、日文词和韩文词中的至少一个。


3.如权利要求1所述的处理方法,所述词语为中文词,所述单字为汉字,相应地,基于中文词中汉字的笔画信息,生成笔画向量矩阵,包括:
对中文词包括的各汉字进行笔画分解;
分别将各汉字的各笔画转换为笔画向量,并将各笔画向量拼接为笔画向量矩阵。


4.如权利要求3所述的处理方法,其中,所述分别将各汉字的各笔画转换为笔画向量,包括:
将汉字的各笔画组合成n-gram集合;
对于每个笔画,从n-gram集合中获取该笔画对应的j-gram元素,其中,j=1,2,…,n;
分别将笔画的各j-gram元素映射为第一向量,并将各第一向量拼接为该笔画对应的笔画向量。


5.如权利要求4所述的处理方法,其中,所述分别将笔画的各j-gram元素映射为笔画向量,包括:
对于每个j-gram元素,通过预设的映射矩阵将该j-gram元素映射为第一向量。


6.如权利要求3所述的处理方法,还包括:
获取目标词表中各中文词的词向量;
基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值。


7.如权利要求6所述的处理方法,其中,所述基于获取的词向量以及所述隐藏层表示,确定所述目标词表中各中文词为所述下一个中文词的概率值,包括:
对于每个词向量,将该词向量与隐藏层表示进行点积,得到二者的相似度值;
对相似度值进行so...

【专利技术属性】
技术研发人员:包祖贻徐光伟李辰刘恒友李林琳司罗
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1