【技术实现步骤摘要】
一种基于多模态共享权重的中文变体文本转换方法
[0001]本专利技术涉及一种基于多模态共享权重的中文变体文本转换方法,属于互联网与人工智能
技术介绍
[0002]社交平台蓬勃发展,逐渐成为人们分享生活,沟通交流的新模式。但由于外界政治、经济、文化等诸多因素影响,以及社交平台具有匿名性、虚拟性的特点,网络中的敏感文本严重影响正常平台秩序,甚至造成舆论发酵。近年来政府和各大社交平台愈发重视对发文和评论内容的检测和监管。而不法用户仍利用同音异形字、谐音字等变体文本发布敏感文本绕过平台检测,为平台监管带来极大挑战。因此,针对中文变体文本进行识别转换,对于净化网络环境,打造清朗、健康、安全的网络空间,保护网民身心健康和财产安全,以及维护社会稳定都有着重大意义。
[0003]多数自然语言处理(Natural Language Processing,NLP)方法最初是为英文文本设计,因此传统方法更加适配英语、法语等拉丁文语言。与拉丁语不同的是,汉字属于象形文字,具有丰富的象形符号、字形结构和偏旁部首特征,并经过历史的不断 ...
【技术保护点】
【技术特征摘要】
1.一种基于多模态共享权重的中文变体文本转换方法,其特征在于,包括如下步骤:步骤1,在BERT词嵌入基础上设计汉字多模态嵌入层,将汉字的字音和字形多模态信息嵌入到词向量中;步骤2,使用共享权重嵌入机制进行权重初始化,采用步骤1设计的嵌入层对原始文本进行词嵌入,并得到原始文本嵌入权重,接着在训练过程中,使用原始文本嵌入权重对解码器和生成器的目标文本嵌入权重进行初始化;步骤3,使用编码器
‑
解码器对变体文本进行转换,采用基于多头注意力机制的编码器
‑
解码器架构的机器翻译方法,采用端到端的方式对中文变体字进行转换,对文本序列特征和空间特征的关键部分进行捕获。2.根据权利要求1所述的基于多模态共享权重的中文变体文本转换方法,其特征在于,所述步骤1包括如下子步骤:步骤1
‑
1,BERT词嵌入首先,使用词元嵌入将输入文本的每个词元转换成固定维度的向量;其次,采用段嵌入通过0和1区分独立的两个句子或段落之间的关系,以辅助下游任务;最后,利用位置嵌入通过正弦函数和余弦函数对文本位置进行编码,关注到一个句子中处于不同位置的两个相同的词;步骤1
‑
2,字音嵌入使用pypinyin库对汉语拼音声母、韵母和声调进行编码,并将声调编码追加在向量尾部...
【专利技术属性】
技术研发人员:杨鹏,李乐翔,李冰,孙元康,
申请(专利权)人:浙江华巽科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。