一种基于机器学习的数据和文本处理系统及其方法技术方案

技术编号:36260368 阅读:22 留言:0更新日期:2023-01-07 09:57
本发明专利技术涉及数据处理技术领域,公开了一种基于机器学习的数据和文本处理系统及其方法,包括数据文本处理智能平台、与数据文本处理智能平台数据连接的智能流程处理识别服务端、以及与数据文本处理智能平台数据连接的云端服务平台;数据文本处理智能平台包括数据库、数据文本处理系统、数据文本管理系统和数据文本获取端;本发明专利技术利用AI智能、大数据处理以及机器学习技术,能够完成对多类别数据文本的标准化分析评估和自主学习优化功能,能够自主学习的优化评估结果,进而能够进一步提高评估的准确性和有效性,且改善了机器学习的流程化操作,且改善了机器学习的流程化操作,提高了智能化应用效果。能化应用效果。能化应用效果。

【技术实现步骤摘要】
一种基于机器学习的数据和文本处理系统及其方法


[0001]本专利技术涉及数据文本处理
,特别是一种基于机器学习的数据和文本处理系统及其方法。

技术介绍

[0002]随着计算机技术和网络技术的发展,文本作为信息的传播载体得到充分发展。为了向用户提供高效的文本搜索和文本推荐等服务,通常需要对文本进行获取分析处理,以向用户提供高质量文本。
[0003]但是现有技术存在如下问题:现有文本处理系统在检测数据文本时不够全面和智能,无法快速精准的识别出多项不同形式的数据文本,例如音频、视频、图片等等,且操作流程较为繁琐,同时对于数据文本中可能存在的抄袭现象、重复字现象与错别字现象,也不能根据检测结果进行评估,并根据现有状况进行改善。

技术实现思路

[0004]鉴于上述现有的数据文本处理中存在的问题,提出了本专利技术。因此,本专利技术提供一种基于机器学习的数据和文本处理系统及其方法,其利用AI智能、大数据处理以及RPA机器人技术,能够完成对多类别数据文本的标准化分析评估和自主学习优化功能,不断提升标记数据文本的质量,且改善了机器学习的流程化操作,提高了智能化应用效果,有利于大规模的高效应用。
[0005]本专利技术提供如下技术方案:
[0006]一方面,提供一种基于机器学习的数据和文本处理系统,包括数据文本处理智能平台、与所述数据文本处理智能平台数据连接的智能流程处理识别服务端、以及与所述数据文本处理智能平台数据连接的云端服务平台;所述数据文本处理智能平台包括数据库、数据文本处理系统、数据文本管理系统和数据文本获取端;所述数据库采用Hadoop大数据集群底层架构,且数据库包括规则库、特征库、算法库、知识库和成果库;所述数据文本处理系统包括大数据处理模块、文本抽取分词模块、索引建立模块、分类模块、识别模块、查验评估模块、报告生成模块和自主学习优化模块,所述数据文本获取端用于获取关联的信息数据;
[0007]所述智能流程处理识别服务端用于对所述数据文本获取端获取的关联的信息数据进行流程化处理,形成标准数据文本结构化数据,同时用于所述数据文本处理智能平台中地数据文本处理系统的流程化操作,包括RPA流程机器人、OCR光学字符识别系统和语音识别系统;
[0008]所述云端服务平台用于不同的终端用户接入使用,包括决策层、业务层和管理层;
[0009]其中,所述数据文本获取端获取关联的信息数据后,调用智能流程处理识别服务端进行处理,将所述关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统中进行数据处理、分类、识别分析和自主学习优化,获得对应的优化文本数据与查验
评估报告。
[0010]作为本专利技术的一种优选方案,其中:所述文本抽取分词模块用于接收标准数据文本结构化数据,当判断出标准数据文本结构化数据为破损时,则舍弃掉所述标准数据文本结构化数据;否则识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本;
[0011]所述索引建立模块用于根据所提供的分词结果形成的分词文本建立文本内容的索引文件,并为所述数据库提供索引文件;
[0012]所述分类模块用于根据所提供的分词结果形成的分词文本确定一个类别分类,并将分类结果缓存至数据库;
[0013]所述识别模块用于基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘,并将数据挖掘结果缓存至数据库;
[0014]所述查验评估模块用于根据数据索引和数据挖掘结果,对多个句子文本所形成的文档进行质量评估,并将数据索引、数据挖掘结果和质量评估结果缓存至数据库;
[0015]所述报告生成模块用于根据导入的标准数据文本结构化数据所生成的质量评估结果,以及相应的图表或等级分类,生成质量评估报告并缓存至数据库;
[0016]所述自主学习优化模块用于对当前标记的标准数据文本结构化数据,结合知识库形成的知识图谱神经网络模型,进行自主学习优化和呈现,并缓存至数据库。
[0017]作为本专利技术的一种优选方案,其中:对多个句子文本所形成的文档进行质量评估,具体地,对所述文档中的文本数据进行词性分析得到对应的词性,并从所述文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到所述目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值后进行准确度优化,如下:
[0018]采用均方差来作为综合评估值模型的代价函数MSE,度量综合评估值模型输出预测值与真实值的差异,同时采用均方根误差RMSE和平均绝对误差MAE来评测综合评估值模型的预测结果,代价函数MSE的公式如式(1)所示,均方根误差RMSE的公式如式(2)所示,平均绝对误差MAE的公式如式(3)所示;
[0019][0020][0021][0022]其中,表示第i个样本的单个预测值,y
i
表示第i个样本的真实值,n为序号。
[0023]作为本专利技术的一种优选方案,其中:所述分类模块给文本内容确定一个类别进行分类,具体为根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别,同时定义错误分类风险通过式(4)对判定区域内的文本内容的错误进行分类风险TR
i
,如下:
[0024][0025]其中,ins∈R(z
j
)表示下属区域z
j
的错误分类实例,对于每个错误分类实例j,v
j
为错误分类实例j中的标题和正文之间语义错误数量,p
j
为错误分类实例j中的语法错误数量,q
j
为错误分类实例j中分类关键词的数量,a1、a2和a3分别表示三个数量v
j
、p
j
、q
j
的权重值;
[0026]所述识别模块提取文本内容中的关键词,具体包括:根据词项在文本内容中的文档频率、位置、词性权重、词频以及文本内容长度参数确定每个词项的综合权重,依据综合权重大小排序得到M个关键词,其中关键词M的数量由用户指定;
[0027]所述自主学习优化模块基于当前标记的标准数据文本结构化数据,结合综合评估值,进行自主学习优化操作;具体地对当前文档中相应的文本字符进行重要性排序后,通过余弦相似度获得其他文档中相应文本的匹配度,基于其他文档中相应文本,更新当前文档中相应的文本,基于当前标记的标准数据文本结构化数据,完成自主学习优化操作。
[0028]作为本专利技术的一种优选方案,其中:所述数据文本获取端用于获取关联的信息数据,数据类型包括文字、图像、语音、视频和其他文本信息数据。
[0029]作为本专利技术的一种优选方案,其中:所述云端服务平台还包括访问账号管理单元和功能使用单元本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的数据和文本处理系统,其特征在于,包括数据文本处理智能平台(10)、与所述数据文本处理智能平台(10)数据连接的智能流程处理识别服务端(20)、以及与所述数据文本处理智能平台(10)数据连接的云端服务平台(30);所述数据文本处理智能平台(10)包括数据库(101)、数据文本处理系统(102)、数据文本管理系统(103)和数据文本获取端(104);所述数据库(101)采用Hadoop大数据集群底层架构,且数据库(101)包括规则库、特征库、算法库、知识库和成果库;所述数据文本处理系统(102)包括大数据处理模块、文本抽取分词模块、索引建立模块、分类模块、识别模块、查验评估模块、报告生成模块和自主学习优化模块,所述数据文本获取端(104)用于获取关联的信息数据;所述智能流程处理识别服务端(20)用于对所述数据文本获取端(104)获取的关联的信息数据进行流程化处理,形成标准数据文本结构化数据,同时用于所述数据文本处理智能平台(10)中的数据文本处理系统(102)的流程化操作,包括RPA流程机器人、OCR光学字符识别系统和语音识别系统;所述云端服务平台(30)用于不同的终端用户接入使用,包括决策层、业务层和管理层;其中,所述数据文本获取端(104)获取关联的信息数据后,调用智能流程处理识别服务端(20)进行处理,将所述关联的信息数据转化为标准数据文本结构化数据并导入至数据文本处理系统(102)中进行数据处理、分类、识别分析和自主学习优化,获得对应的优化文本数据与查验评估报告。2.如权利要求1所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述文本抽取分词模块用于接收标准数据文本结构化数据,当判断出标准数据文本结构化数据为破损时,则舍弃掉所述标准数据文本结构化数据;否则识别标准数据文本结构化数据并抽取文本数据进行分词操作,形成分词文本;所述索引建立模块用于根据所提供的分词结果形成的分词文本建立文本内容的索引文件,并为所述数据库(101)提供索引文件;所述分类模块用于根据所提供的分词结果形成的分词文本确定一个类别分类,并将分类结果缓存至数据库(101);所述识别模块用于基于分类结果的类别,提取文本内容中的关键词,通过关键词进行外部数据的数据挖掘,并将数据挖掘结果缓存至数据库(101);所述查验评估模块用于根据数据索引和数据挖掘结果,对多个句子文本所形成的文档进行质量评估,并将数据索引、数据挖掘结果和质量评估结果缓存至数据库(101);所述报告生成模块用于根据导入的标准数据文本结构化数据所生成的质量评估结果,以及相应的图表或等级分类,生成质量评估报告并缓存至数据库(101);所述自主学习优化模块用于对当前标记的标准数据文本结构化数据,结合知识库形成的知识图谱神经网络模型,进行自主学习优化和呈现,并缓存至数据库(101)。3.如权利要求2所述的一种基于机器学习的数据和文本处理系统,其特征在于,对多个句子文本所形成的文档进行质量评估,具体地,对所述文档中的文本数据进行词性分析得到对应的词性,并从所述文本数据中提取指定词性对应的目标词汇;获取预设词汇集,并利用相似度模型进行相似度比较,得到所述目标词汇对应的相似度,统计词汇数量,即使用字符词向量之间的语义相似度表示词频,利用词汇数量生成有效性评估值,并结合句子语法形成的正确性评估值,计算得到综合评估值后进行准确度优化,如下:
采用均方差来作为综合评估值模型的代价函数MSE,度量综合评估值模型输出预测值与真实值的差异,同时采用均方根误差RMSE和平均绝对误差MAE来评测综合评估值模型的预测结果,代价函数MSE的公式如式(1)所示,均方根误差RMSE的公式如式(2)所示,平均绝对误差MAE的公式如式(3)所示;MAE的公式如式(3)所示;MAE的公式如式(3)所示;其中,表示第i个样本的单个预测值,y
i
表示第i个样本的真实值,n为序号。4.如权利要求3所述的一种基于机器学习的数据和文本处理系统,其特征在于,所述分类模块给文本内容确定一个类别进行分类,具体为根据预先定义的分类体系以及经过训练得到的分类模型,对分词结果进行特征向量表示,利用朴素贝叶斯、K近邻、支持向量积这些算法中的任一种算法将所述文本内容与分类模型进行距离计算,从而得到该文本内容的分类类别,同时定义错误分类风险,通过式(4)对...

【专利技术属性】
技术研发人员:张琨
申请(专利权)人:非传信息科技南京有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1