中文字符和拼音相结合的词向量表示方法、装置、介质制造方法及图纸

技术编号:27616533 阅读:30 留言:0更新日期:2021-03-10 10:48
本发明专利技术公开了一种中文字符和拼音相结合的词向量表示方法、装置、介质。该方法包括步骤:S11:将待转换为词向量表示的中文文本中每个中文字符转化为拼音;S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示;S13:针对中文文本中每个中文字符的拼音,利用预训练的拼词嵌入模型,得到拼音的词向量表示;S14:针对中文文本中每个中文字符,融合两种词向量表示得到字符融合表示向量。本发明专利技术通过中文字符和拼音相合的方法,在可区分同音字的基础上,建立了同音字之间的关系信息,从而能够很好地处理同音字噪声。本发明专利技术可以用于但不限于不良信息的过滤。的过滤。的过滤。

【技术实现步骤摘要】
中文字符和拼音相结合的词向量表示方法、装置、介质


[0001]本专利技术属于计算机自然语言处理领域,公开了一种中文字符和拼音相结合的词向量表示方法。

技术介绍

[0002]互联网的迅速发展,信息共享的时效和传递性得到了很大的提升,用户可以更加高效、便捷地获取到所需要的信息。在互联网中,信息呈现的方式多种多样,其中文本是最常见的。用户不仅可以通过文本获取信息,自身也可作为发布者来发布文本,这就使得互联网中存在着海量的信息。然而科技往往是把双刃剑。海量文本信息便利用户的同时,其中也存在着不好的一面。由于文本信息的发布比较自由,大量的不良信息诸如色情、暴力、赌博、广告等不良信息充斥其中,极大地影响着用户的上网体验。故而,不良信息过滤是十分必要的。
[0003]在不良信息过滤所面临的问题中,如何去除噪声的影响对模型的最终效果有着很大的影响。温园旭在其《变体短文本过滤算法研究》中提出通过预处理过程来消除噪声的影响,取得了不错的效果。但是由于中文同音字的噪声的特殊性,即在分类前无法判断同音字是否为噪声,如:“微信”,“维信”、“薇新
”……
是其同音字噪声,“威信”则是可能是正常表达。还有像“或”、“活”、“火”、“货
”……
这些同音字都是中文中的常用字,不应当做同音字噪声处理。故该预处理过程无法消除同音字的影响。
[0004]不良信息过滤是典型的文本分类问题。文本分类是在预定义的分类体系下,根据文本的特征(内容或属性),将给定文本与一个或多个类别相关联的过程。因此,文本分类研究涉及文本内容理解和模式分类等若干自然语言理解和模式识别问题。文本分类任务的最终目的是要找到一个有效的映射函数,准确地实现域D
×
C到值T或F的映射,这个映射函数实际上就是我们通常所说的分类器。因此,文本分类中有两个关键问题:一个是文本的表示,另一个就是分类器设计。目前最为常用的词向量化方法,通过简单的神经网络训练使特征词得向量表示由其上下文相关的词表示,使得最终的词向量能够考虑到相邻词与词之间的关系。由于同音字有音相同的关系,在文本中的位置并无关系,所以这种向量化方法无法考虑到同音字间的联系。
[0005]基于实际应用的需求和现有向量化方法无法考虑到同音字之间的关系,本专利技术方法提出一种中文字符和拼音相结合的词向量表示方法。

技术实现思路

[0006]本专利技术针对实际应用中的对同音字噪声过滤的需求以及现有技术不能很好解决同音字噪声的现状,提出一种中文字符和拼音相结合的词向量表示方法。本专利技术方法通过在文本的表示即文本向量化阶段融合了中文字符和拼音,由此得到包含同音字信息的词向量。在后续模型的处理过程中便可根据同音字信息来识别同音字,从而降低同音字噪声的影响。
[0007]为了实现上述专利技术目的,本专利技术具体采取如下技术方案:
[0008]第一方面,本专利技术提供了一种中文字符和拼音相结合的词向量表示方法,其步骤如下:
[0009]S11:使用拼音转换工具将待转换为词向量表示的中文文本中每个中文字符转化为拼音;
[0010]S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示x1;
[0011]S13:针对中文文本中每个中文字符的拼音,利用预训练的拼音词嵌入模型,得到拼音的词向量表示x2;
[0012]S14:针对中文文本中每个中文字符,融合其对应的中文字符的词向量表示和拼音的词向量表示,得到字符融合表示向量x=[x1,x2]。
[0013]作为优选,所述中文字符词嵌入模型和拼音词嵌入模型各自独立进行训练,使其能分别将中文字符和拼音转换为词向量表示。
[0014]作为优选,所述中文字符词嵌入模型和拼音词嵌入模型为基于Skip-Gram的word2vec模型,模型输入数据预先转换为one-hot向量表示。
[0015]作为优选,每个中文字符可预先转换为所述字符融合表示向量,并将中文字符和字符融合表示向量关联保存于字典中;待转换为词向量表示的中文字符,通过查询字典的方法转换为字符融合表示向量。
[0016]第二方面,本专利技术提供了一种基于如第二方面任一方案所述词向量表示方法的不良信息文本分类方法,其步骤如下:
[0017]S21:针对包含不良信息文本和非不良信息文本两类样本的训练数据,利用所述词向量表示方法将每个样本转换为字符融合表示向量;
[0018]S22:利用训练数据对文本分类模型进行训练,使其能准确输出样本属于不良信息文本或者非不良信息文本的二分类标签;
[0019]S23:针对待分类的目标信息文本,利用所述词向量表示方法将其转换为字符融合表示向量,并输入训练后的文本分类模型中,输出其分类结果。
[0020]作为优选,所述的文本分类模型为TextCNN、TextRNN、TextRNN_Att、FastText、Transformer或DPCNN模型。
[0021]第三方面,本专利技术提供了一种中文字符和拼音相结合的词向量表示装置,其包括存储器和处理器;
[0022]所述存储器,用于存储计算机程序;
[0023]所述处理器,用于当执行所述计算机程序时,实现如第一方面任一项方案所述的中文字符和拼音相结合的词向量表示方法。
[0024]第四方面,本专利技术提供了一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如第一方面任一项方案所述的中文字符和拼音相结合的词向量表示方法。
[0025]第五方面,本专利技术提供了一种不良信息文本分类装置,其包括存储器和处理器;
[0026]所述存储器,用于存储计算机程序;
[0027]所述处理器,用于当执行所述计算机程序时,实现如第二方面任一方案所述的不
良信息文本分类方法。
[0028]第六方面,本专利技术提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如第二方面任一方案所述的不良信息文本分类方法。
[0029]本专利技术与现有技术相比有如下优点:
[0030]本专利技术可以用于但不限于不良信息的过滤,在不影响对正常使用的同音字处理的前提下,提高模型对同音字噪声的处理能力。实验证明了改进的词向量表示方法的有效性。本专利技术通过中文字符和拼音相合的方法,在可区分同音字的基础上,建立了同音字之间的关系信息,从而能够很好地处理同音字噪声。这是传统文本词向量方法所不具有的。
附图说明
[0031]图1为是中文字符和拼音相结合的词向量表示方法的路线图;
[0032]图2为实施例中一般文本的对比实验结果;
[0033]图3为实施例中添加同音字噪声文本的对比实验结果。
具体实施方式
[0034]下面将结合附图对本专利技术加以详细说明,应指出的是,所描述的实施例仅便于对本专利技术的理解,而对其不起任何限定作用。
[0035]本专利技术后续描述用到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种中文字符和拼音相结合的词向量表示方法,其特征在于,步骤如下:S11:使用拼音转换工具将待转换为词向量表示的中文文本中每个中文字符转化为拼音;S12:针对中文文本中每个中文字符,利用预训练的中文字符词嵌入模型,得到中文字符的词向量表示x1;S13:针对中文文本中每个中文字符的拼音,利用预训练的拼音词嵌入模型,得到拼音的词向量表示x2;S14:针对中文文本中每个中文字符,融合其对应的中文字符的词向量表示和拼音的词向量表示,得到字符融合表示向量x=[x1,x2]。2.如权利要求1所述中文字符和拼音相结合的词向量表示方法,其特征在于,所述中文字符词嵌入模型和拼音词嵌入模型各自独立进行训练,使其能分别将中文字符和拼音转换为词向量表示。3.如权利要求1所述中文字符和拼音相结合的词向量表示方法,其特征在于,所述中文字符词嵌入模型和拼音词嵌入模型为基于Skip-Gram的word2vec模型,模型输入数据预先转换为one-hot向量表示。4.如权利要求1所述中文字符和拼音相结合的词向量表示方法,其特征在于,每个中文字符可预先转换为所述字符融合表示向量,并将中文字符和字符融合表示向量关联保存于字典中;待转换为词向量表示的中文字符,通过查询字典的方法转换为字符融合表示向量。5.一种基于如权利要求1~4任一所述词向量表示方法的不良信息文本分类方法,其特征在于,步骤如下:S21:针对包含不良信息文本和非不良信息文本两类样本的训练数据,利...

【专利技术属性】
技术研发人员:姚金良胡创王荣波谌志群黄孝喜
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1