一种基于汉字音意结构汉字编码的自然语言处理方法技术

技术编号：27657186 阅读：20 留言：0更新日期：2021-03-12 14:20

本发明专利技术公开了一种基于汉字音意结构汉字编码的自然语言处理方法，包括如下步骤：步骤一，汉字编码的转换以及UTF‑8到新编码转化；步骤二，自然语言处理以及深度学习训练；步骤三，语法器、分类器、语言模型生成。该方法可以降低现有自然语言处理方法的难度，提供一种基于汉字特征的、包含汉字音意结构特征编码的自然分析处理方法，使得自然语言分析技术，从汉字本身出发，进行属性分析，特征提取，减少暴力训练的语料需求量，提高语言模型的训练效率，提升分析结果的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于汉字音意结构汉字编码的自然语言处理方法
本专利技术涉及人工智能汉字处理
，更具体的说，涉及一种基于汉字音意结构汉字编码的自然语言处理方法。
技术介绍
目前，深度学习是一种基于特征学习的机器学习方法，国际国内的自然语言处理技术(NLP)都是通过提取原始数据的数字编码的特征来进行的。英语是构成每个单词的英文字母编码的罗列，所以编码体现了字母的排列顺序，如：study7374756479(编码直接反应字母构成)，有助于对单词的特征提取，能够体现英语的词根等特性，从而有助于基于英语单词结构分类的特征提取，模型微调过程可实现快速收敛。汉语处理基于每个汉字的UTF-8编码进行的，如(图1所示UTF-8编码的规则，偏旁+整个字的笔画，偏旁氵的汉字到火的过度只是单纯的编码+1，无法表现出汉字特征)：灯706F00E781AF(无结构规律)，这种编码是按照(偏旁+整个字的笔画)进行的连续数字编码，该编码无明显语义特征，需要海量的语料数据进行暴力学习训练。这也是为什么很多语言模型欧美体系取得很好效果，汉语效果却不行的原因。汉字，是中文的记录符号，也在日文、朝鲜文等文字中使用。与英文、俄文、印地文、阿拉伯文等表音的字母文字不同，汉字是典型的意音文字。与拼音文字单词的单音或多音表义不同，汉字一般单字单音表义。汉字由象形文字(表形文字)演变成兼表音义的意音文字，但总的体系仍属表意文字。所以，汉字具有集形象、声音和辞义三者于一体的特性。本身具有很强的语义信息。这一特性在世界文字中是独一无二的，因此它...

【技术保护点】
1.一种基于汉字音意结构汉字编码的自然语言处理方法，其特征在于：包括如下步骤：/n步骤一，汉字编码的转换以及UTF-8到新编码转化；/n步骤二，自然语言处理以及深度学习训练；/n步骤三，语法器、分类器、语言模型生成。/n

【技术特征摘要】
1.一种基于汉字音意结构汉字编码的自然语言处理方法，其特征在于：包括如下步骤：
步骤一，汉字编码的转换以及UTF-8到新编码转化；
步骤二，自然语言处理以及深度学习训练；
步骤三，语法器、分类器、语言模型生成。

2.根据权利要求1所述的一种基于汉字音意结构汉字编码的自然语言处理方法，其特征在于：所述的汉字编码的转换中将汉字编码分为音码和结构码两部分，所述的音码为15位二进制数，所述的结构码为26位二进制数。

3.根据权利要求2所述的一种基于汉字音意结构汉字编码的自然语言处理方法，其特征在...

【专利技术属性】
技术研发人员：杜爽，
申请(专利权)人：苏州英特雷真智能科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人