中文字符和拼音相结合的词向量表示方法、装置、介质制造方法及图纸

技术编号：27616533 阅读：30 留言：0更新日期：2021-03-10 10:48

本发明专利技术公开了一种中文字符和拼音相结合的词向量表示方法、装置、介质。该方法包括步骤：S11：将待转换为词向量表示的中文文本中每个中文字符转化为拼音；S12：针对中文文本中每个中文字符，利用预训练的中文字符词嵌入模型，得到中文字符的词向量表示；S13：针对中文文本中每个中文字符的拼音，利用预训练的拼词嵌入模型，得到拼音的词向量表示；S14：针对中文文本中每个中文字符，融合两种词向量表示得到字符融合表示向量。本发明专利技术通过中文字符和拼音相合的方法，在可区分同音字的基础上，建立了同音字之间的关系信息，从而能够很好地处理同音字噪声。本发明专利技术可以用于但不限于不良信息的过滤。的过滤。的过滤。

全部详细技术资料下载

【技术实现步骤摘要】
中文字符和拼音相结合的词向量表示方法、装置、介质

[0001]本专利技术属于计算机自然语言处理领域，公开了一种中文字符和拼音相结合的词向量表示方法。

技术介绍

[0002]互联网的迅速发展，信息共享的时效和传递性得到了很大的提升，用户可以更加高效、便捷地获取到所需要的信息。在互联网中，信息呈现的方式多种多样，其中文本是最常见的。用户不仅可以通过文本获取信息，自身也可作为发布者来发布文本，这就使得互联网中存在着海量的信息。然而科技往往是把双刃剑。海量文本信息便利用户的同时，其中也存在着不好的一面。由于文本信息的发布比较自由，大量的不良信息诸如色情、暴力、赌博、广告等不良信息充斥其中，极大地影响着用户的上网体验。故而，不良信息过滤是十分必要的。
[0003]在不良信息过滤所面临的问题中，如何去除噪声的影响对模型的最终效果有着很大的影响。温园旭在其《变体短文本过滤算法研究》中提出通过预处理过程来消除噪声的影响，取得了不错的效果。但是由于中文同音字的噪声的特殊性，即在分类前无法判断同音字是否为噪声，如：“微信”，“维信”、“薇新
”……
是其同音字噪声，“威信”则是可能是正常表达。还有像“或”、“活”、“火”、“货
”……
这些同音字都是中文中的常用字，不应当做同音字噪声处理。故该预处理过程无法消除同音字的影响。
[0004]不良信息过滤是典型的文本分类问题。文本分类是在预定义的分类体系下，根据文本的特征(内容或属性)，将给定文本与一个或多个类别相关联的过程。因此，文本分类研究...

【技术保护点】

【技术特征摘要】
1.一种中文字符和拼音相结合的词向量表示方法，其特征在于，步骤如下：S11：使用拼音转换工具将待转换为词向量表示的中文文本中每个中文字符转化为拼音；S12：针对中文文本中每个中文字符，利用预训练的中文字符词嵌入模型，得到中文字符的词向量表示x1；S13：针对中文文本中每个中文字符的拼音，利用预训练的拼音词嵌入模型，得到拼音的词向量表示x2；S14：针对中文文本中每个中文字符，融合其对应的中文字符的词向量表示和拼音的词向量表示，得到字符融合表示向量x＝[x1,x2]。2.如权利要求1所述中文字符和拼音相结合的词向量表示方法，其特征在于，所述中文字符词嵌入模型和拼音词嵌入模型各自独立进行训练，使其能分别将中文字符和拼音转换为词向量表示。3.如权利要求1所述中文字符和拼音相结合的词向量表示方法，其特征在于，所述中文字符词嵌入模型和拼音词嵌入模型为基于Skip-Gram的word2vec模型，模型输入数据预先转换为one-hot向量表示。4.如权利要求1所述中文字符和拼音相结合的词向量表示方法，其特征在于，每个中文字符可预先转换为所述字符融合表示向量，并将中文字符和字符融合表示向量关联保存于字典中；待转换为词向量表示的中文字符，通过查询字典的方法转换为字符融合表示向量。5.一种基于如权利要求1～4任一所述词向量表示方法的不良信息文本分类方法，其特征在于，步骤如下：S21：针对包含不良信息文本和非不良信息文本两类样本的训练数据，利...

【专利技术属性】
技术研发人员：姚金良，胡创，王荣波，谌志群，黄孝喜，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人