一种文本处理方法、装置以及计算设备制造方法及图纸

技术编号：24498727 阅读：41 留言：0更新日期：2020-06-13 04:07

本发明专利技术公开了一种文本处理方法、装置以及计算设备。方法包括：基于词语中单字的笔画信息，生成笔画向量矩阵，所述单字为表意文字，所述笔画为单字的最小连笔单位；将笔画向量矩阵输入到第一神经网络中进行处理，得到词语的词向量；获取词语序列中各词语的词向量，并输入到第二神经网络中进行处理，得到该词语序列的隐藏层表示，所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。

A text processing method, device and computing equipment

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法、装置以及计算设备
本专利技术涉及自然语言处理领域，具体涉及一种文本处理方法、装置以及计算设备。
技术介绍
复杂的机器学习语言模型，特别是基于神经网络的语言模型都有庞大的模型参数，这使得模型对于存储、运行的环境都有了更高的要求；而其中很大的一部分参数都占用在模型的词向量表示上，模型的词表可高达20万词以上，每个词向量的维度少则上百维。于此同时，虽然有非常大的词表，但是这个词表一般是模型训练时就固定的，而现实中每天都有新的词语被专利技术出来，这些不在词表中的词(称为表外词或未登录词)对于固定词表的模型来说处理起来非常困难。例如，在电商搜索场景下，为了吸引用户的注意，不少商家使用的商品名都是一些新词汇，比如“超甜蕉”、“上海青”、“奶青”等，这些词都不是固定词表能够很好覆盖的。而且庞大的词表使得模型参数无法控制，对于线上资源的要求也大大提高。现有的一些模型压缩技术大都是对于模型本身进行通用的有损或无损压缩，而并不是从模型的设计上入手，所以压缩效率有限。例如，对于通用的模型压缩算法，一种方法简单来说是剔除模型中不是很重要的参数，这种方法很容易对模型的性能造成损失；另一种是使用小模型对大模型进行学习的方法，得到参数较少的小模型，这种方法一方面可能会损失性能，另一方面会增加模型的训练成本。对于未登录词的问题，一种方法是将所有低频词都统一用一个符号表示，模型会学习一个统一的表示来代表所有低频词，这种方法将所有低频词一起处理，不可避免地损失每个词本身特定的含义，使得系统性能下降；另一种方法是...

【技术保护点】
1.一种文本处理方法，包括：/n基于词语中单字的笔画信息，生成笔画向量矩阵，所述单字为表意文字，所述笔画为单字的最小连笔单位；/n将笔画向量矩阵输入到第一神经网络中进行处理，得到词语的词向量；/n获取词语序列中各词语的词向量，并输入到第二神经网络中进行处理，得到该词语序列的隐藏层表示，所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。/n

【技术特征摘要】
1.一种文本处理方法，包括：
基于词语中单字的笔画信息，生成笔画向量矩阵，所述单字为表意文字，所述笔画为单字的最小连笔单位；
将笔画向量矩阵输入到第一神经网络中进行处理，得到词语的词向量；
获取词语序列中各词语的词向量，并输入到第二神经网络中进行处理，得到该词语序列的隐藏层表示，所述隐藏层表示用于表征所述词语序列的下一个词语的分布概率。

2.如权利要求1所述处理方法，所述词语包括中文词、日文词和韩文词中的至少一个。

3.如权利要求1所述的处理方法，所述词语为中文词，所述单字为汉字，相应地，基于中文词中汉字的笔画信息，生成笔画向量矩阵，包括：
对中文词包括的各汉字进行笔画分解；
分别将各汉字的各笔画转换为笔画向量，并将各笔画向量拼接为笔画向量矩阵。

4.如权利要求3所述的处理方法，其中，所述分别将各汉字的各笔画转换为笔画向量，包括：
将汉字的各笔画组合成n-gram集合；
对于每个笔画，从n-gram集合中获取该笔画对应的j-gram元素，其中，j＝1,2,…,n；
分别将笔画的各j-gram元素映射为第一向量，并将各第一向量拼接为该笔画对应的笔画向量。

5.如权利要求4所述的处理方法，其中，所述分别将笔画的各j-gram元素映射为笔画向量，包括：
对于每个j-gram元素，通过预设的映射矩阵将该j-gram元素映射为第一向量。

6.如权利要求3所述的处理方法，还包括：
获取目标词表中各中文词的词向量；
基于获取的词向量以及所述隐藏层表示，确定所述目标词表中各中文词为所述下一个中文词的概率值。

7.如权利要求6所述的处理方法，其中，所述基于获取的词向量以及所述隐藏层表示，确定所述目标词表中各中文词为所述下一个中文词的概率值，包括：
对于每个词向量，将该词向量与隐藏层表示进行点积，得到二者的相似度值；
对相似度值进行so...

【专利技术属性】
技术研发人员：包祖贻，徐光伟，李辰，刘恒友，李林琳，司罗，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人