一种基于机器学习和深度学习的中文自然语言处理工具系统技术方案

技术编号:23149938 阅读:33 留言:0更新日期:2020-01-18 13:48
本发明专利技术公开了一种基于机器学习和深度学习的中文自然语言处理工具系统,包括:数据处理模块,用于获取待处理中文文本和处理任务类型,并根据处理任务类型将接收的中文文本转换为计算机可读的数据格式;任务应用模块,用于根据数据处理模块获取的数据和自然语言处理需求,使用统一接口调用算法模型库,完成全流程模型训练;并根据保存的自然语言处理模型,对外提供规范统一的任务调用接口,以完成相应自然语言处理任务;算法模型库,用于保存自然语言处理任务的算法及根据算法训练得到的模型。本发明专利技术构造了合理的系统架构,通过所有功能训练接口统一、训练流程统一、调用接口统一、调用流程统一,作为自然语言处理工具使用更加简单高效。

A Chinese natural language processing tool system based on machine learning and deep learning

【技术实现步骤摘要】
一种基于机器学习和深度学习的中文自然语言处理工具系统
本专利技术涉及自然语言处理技术,尤其涉及一种基于机器学习和深度学习的中文自然语言处理工具系统。
技术介绍
传统的自然语言处理工具通常基于经典机器学习算法,例如支持向量机(SVM)和条件随机场(CRF)等。随着深度学习的进步,许多基于深度神经网络模型的研究致力于改进现有自然语言处理算法,其通常将字符和单词信息以分布式表示形式编码用于输入,并且以端到端的训练方式学习自然语言处理任务。最近,越来越多的深度学习算法在自然语言处理任务中取得了优异的表现,一些使用采用最新技术、拥有良好性能的自然语言处理工具被提出。但目前基于机器学习和深度学习、覆盖多种自然语言处理任务且囊括主流算法模型的中文自然语言处理工具包系统还是十分稀少。
技术实现思路
本专利技术要解决的技术问题在于针对现有技术中的缺陷,提供一种基于机器学习和深度学习的中文自然语言处理工具系统。本专利技术解决其技术问题所采用的技术方案是:一种基于机器学习和深度学习的中文自然语言处理工具系统,包括:r>数据处理模块,用本文档来自技高网...

【技术保护点】
1.一种基于机器学习和深度学习的中文自然语言处理工具系统,其特征在于,包括:/n数据处理模块,用于获取待处理中文文本和处理任务类型,并根据处理任务类型将接收的中文文本转换为计算机可读的数据格式;/n任务应用模块,用于根据数据处理模块获取的数据和自然语言处理需求,使用统一接口调用算法模型库,完成全流程模型训练;并根据保存的自然语言处理模型,对外提供规范统一的任务调用接口,以完成相应自然语言处理任务;/n算法模型库,用于保存自然语言处理任务的算法及根据算法训练得到的模型;/n算法模型库包含的算法有基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词...

【技术特征摘要】
1.一种基于机器学习和深度学习的中文自然语言处理工具系统,其特征在于,包括:
数据处理模块,用于获取待处理中文文本和处理任务类型,并根据处理任务类型将接收的中文文本转换为计算机可读的数据格式;
任务应用模块,用于根据数据处理模块获取的数据和自然语言处理需求,使用统一接口调用算法模型库,完成全流程模型训练;并根据保存的自然语言处理模型,对外提供规范统一的任务调用接口,以完成相应自然语言处理任务;
算法模型库,用于保存自然语言处理任务的算法及根据算法训练得到的模型;
算法模型库包含的算法有基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法,基于深度学习和图的句法依存解析和语义依存解析算法,基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法。


2.根据权利要求1所述的基于机器学习和深度学习的中文自然语言处理工具系统,其特征在于,所述数据处理模块包括IO模块、数据管理模块、数据清洗模块和Token转换模块;
IO模块,用于读写各种类型的数据文件;所述数据文件包括:txt文件、json文件、xml文件、csv文件、Numpy数据文件、Pickle数据文件以及MySQL数据库文件;
数据管理模块,用于对不同任务的不同数据格式文件进行统一处理;所述处理包括文本数据获取,构建特征映射表,文本内容特征转换;
数据清洗模块,用于原始文本数据的清洗工作,包括去掉无效字符串、去掉停用词和繁简转换;
Token转换模块,用于通过构建对应词表,将文本字符(词或字)转换为对应的id。


3.根据权利要求1所述的基于机器学习和深度学习的中文自然语言处理工具系统,其特征在于,所述任务应用模块包括分类应用模块、聚类应用模块、序列标注应用模块、依存解析应用模块、相似度应用模块、句子解析应用模块、语义槽应用模块;
分类应用模块,用于调用算法模型库中深度学习和机器学习分类算法,实现了对文本分类任务的训练和预测,训练后所得模型参数保存于算法模型库中;
聚类应用模块,用于调用算法模型库中的基于机器学习的聚类算法和LDA主题模型,对相似的文本进行汇聚,标注...

【专利技术属性】
技术研发人员:魏巍陈志毅李恒杨佳鑫王赞博徐晨维热克甫王振海
申请(专利权)人:华中科技大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1