一种基于机器学习算法的错误字词智能识别方法技术

技术编号：33848840 阅读：23 留言：0更新日期：2022-06-18 10:34

本发明专利技术公开了一种基于机器学习算法的错误字词智能识别方法，属于信息智能识别技术领域，解决了错字识别技术无法自动更新错误字词库，导致错词识别存在分析错误的问题，包括如下步骤：(1)在应用平台建立错误字词识别管理系统；(2)错误字词识别管理系统对资讯类应用中的错别字进行分类；(3)错误字词识别管理系统连接服务器建立错别字词库，对错别字词库内的字词进行学习和记录；(4)错误字词识别管理系统将已经发表的所有稿件集合形成历史稿库，采用神经网络算法对历史稿库进行人工智能识别和学习，并将其更新至错别字词库中；(5)经过人工智能识别后，进行告警，报于人工核实和修改。本发明专利技术用于各应用中对资讯稿件进行高智能化识别。化识别。化识别。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于机器学习算法的错误字词智能识别方法

[0001]本专利技术属于信息智能识别
，具体涉及一种基于机器学习算法的错误字词智能识别方法。

技术介绍

[0002]文字识别是利用计算机自动识别字符的技术，是模式识别应用的一个重要领域。人们在生产和生活中，要处理大量的文字、报表和文本。为了减轻人们的劳动，提高处理效率，50年代开始探讨一般文字识别方法，并研制出光学字符识别器。60年代出现了采用磁性墨水和特殊字体的实用机器。60年代后期，出现了多种字体和手写体文字识别机，其识别精度和机器性能都基本上能满足要求。如用于信函分拣的手写体数字识别机和印刷体英文数字识别机。70年代主要研究文字识别的基本理论和研制高性能的文字识别机，并着重于汉字识别的研究。
[0003]文字识别一般包括文字信息的采集、信息的分析与处理、信息的分类判别等几个部分。
[0004]信息采集是将纸面上的文字灰度变换成电信号，输入到计算机中去。信息采集由文字识别机中的送纸机构和光电变换装置来实现，有飞点扫描、摄像机、光敏元件和激光扫描等光电变换装置。
[0005]信息分析和处理是对变换后的电信号消除各种由于印刷质量、纸质(均匀性、污点等)或书写工具等因素所造成的噪音和干扰，进行大小、偏转、浓淡、粗细等各种正规化处理。
[0006]信息的分类判别是对去掉噪声并正规化后的文字信息进行分类判别，以输出识别结果。
[0007]目前在各类APP或者后台管理系统中一些错别字识别技术，都是通过模糊查询文章中字词进行匹配。此类技...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习算法的错误字词智能识别方法，其特征在于，包括如下步骤：(1)在应用平台建立错误字词识别管理系统，错误字词识别管理系统用于新闻媒体资讯类APP的错误字词识别和管理；(2)错误字词识别管理系统对资讯类应用中的错别字进行分类，所述错别字分类包括：标点符号、人名、职位、数字用法和近义词常见易错词，所述数字用法错误包括大小写错误和数字符号错误；(3)错误字词识别管理系统连接服务器建立错别字词库，对错别字词库内的字词进行学习和记录，所述错别字词库包括人名词库、职位词库和易错词词库；(4)错误字词识别管理系统将已经发表的所有稿件集合形成历史稿库，采用神经网络算法对历史稿库进行人工智能识别和学习，并将其更新至错别字词库中；(5)对待审核稿件经过人工智能识别后，错误字词识别管理系统对错误字词进行告警，报于人工核实和修改。2.根据权利要求1所述的一种基于机器学习算法的错误字词智能识别方法，其特征在于，所述步骤(4)中，采用人工智能算法分析历史稿库中的常用词汇...

【专利技术属性】
技术研发人员：赖贵全，唐宇，
申请(专利权)人：成都易达数安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人