一种基于机器学习和深度学习的中文自然语言处理系统技术方案

技术编号:36256971 阅读:55 留言:0更新日期:2023-01-07 09:52
本发明专利技术提供了一种基于机器学习和深度学习的中文自然语言处理系统,包括数据获取与处理模块:将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库;本发明专利技术设置数据获取与处理模块和数据加工模块,首先通过数据获取与处理模块对不同数据格式进行统一处理,然后数据加工模块对处理后的格式数据进行分类,确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,进而通过特定的算法模型对该类型文本数据进行处理,有效提高处理的准确率。理的准确率。理的准确率。

【技术实现步骤摘要】
一种基于机器学习和深度学习的中文自然语言处理系统


[0001]本专利技术属于语言处理
,涉及一种基于机器学习和深度学习的中文自然语言处理系统。

技术介绍

[0002]传统的自然语言处理工具通常基于经典机器学习算法,例如支持向量机和条件随机场,随着深度学习的进步,许多基于深度神经网络模型的研究致力于改进现有自然语言处理算法,其通常将字符和单词信息以分布式表示形式编码用于输入,并且以端到端的训练方式学习自然语言处理任务,最近,越来越多的深度学习算法在自然语言处理任务中取得了优异的表现,一些使用采用最新技术、拥有良好性能的自然语言处理工具被提出,但目前基于机器学习和深度学习,且可选择覆盖多种自然语言处理任务的系统还有待完善,不能根据具体的句法类型进行分类处理,导致其处理效果较差,因此,需要进行改进。

技术实现思路

[0003]本专利技术的目的在于提供一种基于机器学习和深度学习的中文自然语言处理系统,以解决上述
技术介绍
中提出的问题。
[0004]本专利技术的目的可通过下列技术方案来实现:一种基于机器学习和深度学习的中文自然语言处理系统,包括:数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。
[0005]在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。
[0006]在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。
[0007]在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。
[0008]在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类型、定中偏正句法特征类
型、同位偏正句法特征类型、状中偏正句法特征类型、连谓句法特征类型和联合句法特征类型。
[0009]在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,所述数据获取与处理模块包括读写单元、数据格式统一单元、数据处理单元和数据转化单元,其中,读写单元:用于读写各种类型的数据文件,其中数据文件包括:txt文件、json文件、xml文件、csv文件、Numpy数据文件、Pickle数据文件以及MySQL数据库文件;数据格式统一单元,对不同数据格式文件进行统一处理,构建特征映射表,文本内容特征转换;数据处理单元,用于原始文本数据的清洗工作,包括去掉无效字符串、去掉停用词和繁简转换;数据转换单元,通过构建对应词表,将文本字符转换为对应的数据格式文本。
[0010]在上述的一种基于机器学习和深度学习的中文自然语言处理系统中,数据加工模块包括数据接收单元、句法分类单元、映射管理单元和模型调取与处理单元,其中,数据接收单元:接收经过数据获取与处理模块处理后的数据格式文本;句法分类单元:对数据格式文本进行句法分类,并与数据类型库进行匹配;映射管理单元:对数据类型库、算法模型库以及数据类型库和算法模型库之间的映射关系进行管理,包括删减、增加和排序;模型调取与处理单元:确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,得到三个输出结果,供用户自由选择。
[0011]与现有技术相比,本专利技术一种基于机器学习和深度学习的中文自然语言处理系统的优点为:设置数据获取与处理模块和数据加工模块,首先通过数据获取与处理模块对不同数据格式进行统一处理,然后数据加工模块对处理后的格式数据进行分类,确定句法类型后,根据数据类型库和算法模型库之间的映射关系,调取算法模型库中该数据类型库下排序算法模型,进而通过特定的算法模型对该类型文本数据进行处理,有效提高处理的准确率,同时集成多种算法模型处理,使用更加简单高效、方便快捷。
附图说明
[0012]图1是本专利技术一种基于机器学习和深度学习的中文自然语言处理系统的结构示意图。
具体实施方式
[0013]以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。
[0014]一种基于机器学习和深度学习的中文自然语言处理系统,包括:数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行
类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。
[0015]如图1本专利技术一种基于机器学习和深度学习的中文自然语言处理系统,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。
[0016]如图1本专利技术一种基于机器学习和深度学习的中文自然语言处理系统,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。
[0017]如图1本专利技术一种基于机器学习和深度学习的中文自然语言处理系统,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。
[0018]如图1本专利技术一种基于机器学习和深度学习的中文自然语言处理系统,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类型、定中偏正句法特征类型、同位偏正句法特征类型、状中偏正句法特征类型、连谓句法特征类型和联合句法特征类型。
[0019]如图1本专利技术一种基于机器学习和深度学习的中文自然语言处理系统,所述数据获取与处理模块包括读写单元、数据格式统一单元、数据处理单元和数据转化单元,其中,读写单元:用于读写各种类型的数据文件,其中数据文件包括:txt文件、json文件、xml文件、csv文件、Numpy数据文件、Pickle数据文件以及MySQL数据库文件;数据格式统一单元,对不同数据格式文件进行统一处理,构建特征映射表,文本内容特征转换;数据处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,包括:数据获取与处理模块:用于获取待处理中文文本,并将数据处理模块接收的待处理中文文本转换为计算机可读的数据格式文本;数据加工模块:接收数据获取模块转化后的数据格式文本,对数据格式文本进行类型分类,按照特定的数据类型建立格式文本类型数据库,通过设定好的算法模型对数据格式文本进行处理。2.根据权利要求1所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述自然语言处理系统还包括算法模型库和数据类型库,并建立算法模型库和数据类型库之间的映射关系。3.根据权利要求2所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述算法模型库用于保存自然语言处理任务的算法及根据算法训练得到的算法模型,所述数据类型库包含经过确定的不同特征类型的句子句法。4.根据权利要求3所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述算法模型库包含的算法有基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法。5.根据权利要求4所述的一种基于机器学习和深度学习的中文自然语言处理系统,其特征在于,所述数据类型库包含主谓句法特征类型、述宾句法特征类型、述补句法特征类...

【专利技术属性】
技术研发人员:李俊吴孝明王化全金桐吴涵孙波
申请(专利权)人:苏州香橼树网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1