一种文本识别方法、设备、计算机可读存储介质及装置制造方法及图纸

技术编号:20485300 阅读:61 留言:0更新日期:2019-03-02 19:08
本发明专利技术实施例公开了一种文本识别方法,所述方法包括:获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;识别所述第一文本指纹所属的类别得到识别结果;若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。本发明专利技术实施例同时还公开了一种文本识别设备、计算机可读存储介质和装置。

【技术实现步骤摘要】
一种文本识别方法、设备、计算机可读存储介质及装置
本专利技术涉及文本识别
,尤其涉及一种文本识别方法、设备、计算机可读存储介质及装置。
技术介绍
随着通讯技术的飞速发展,短文本成为用户进行信息交流的一种快捷方式。但是,各种恶意的短文本例如垃圾短信等给用户带来了巨大的困扰。现有技术中,防治垃圾短信的方法主要有:黑白名单法、基于发送用户行为规则的方法、基于短信内容关键词方法、基于复杂的机器学习方法及基于指纹库的识别方法等。在基于指纹库的识别方法中,主要是通过对接收到的短信文本进行压缩编码,并在文本指纹库中进行比对确定该短文本的类型,然后根据该短文本的类型确定是否发送该短文本至接收者,其中,文本指纹库中的文本指纹是将短信文本进行二进制编码获得的。但是在现有技术中,不能对文本指纹库进行主动维护例如删除错误或无效的指纹,导致文本指纹库不断膨胀造成比对效率降低,而且短文本类型的错误识别率较高。
技术实现思路
为解决现有技术中存在的问题,本专利技术实施例提供一种文本识别方法、设备、计算机可读存储介质及装置,解决了现有技术中不能对文本指纹库进行主动维护的问题,提高了文本指纹库的比对效率,提高了短文本识别的正确率。为达到上述目的,本专利技术实施例的技术方案是这样实现的:一种文本识别方法,所述方法包括:获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;识别所述第一文本指纹所属的类别得到识别结果;若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。可选的,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,包括:若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。可选的,所述若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数,包括:若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。可选的,所述若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数,包括:统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。可选的,所述基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数,包括:对所述待识别文本进行分词处理得到分词;根据转换规则将每一所述分词进行转换,得到所述每一分词对应的转换参数;根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。可选的,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,包括:若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。可选的,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,还包括:若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。可选的,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,还包括:若所述参考文本的类别与所述识别结果不同,获取所述参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库;采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第三参考文本指纹;其中,所述第三预设文本指纹库为除所述第二预设文本指纹库之外的预设文本指纹库;若所述第三预设文本指纹库中存在所述第三参考文本指纹,删除所述第三预设文本指纹库中的所述第三参考文本指纹;采用所述第三算法,判断所述第二预设文本指纹库中是否存在满足所述第一预设条件的与所述第一文本指纹对应的第四参考文本指纹,得到判断结果;根据所述判断结果对应的预设更新操作将所述第一文本指纹更新至所述第二预设文本指纹库。可选的,所述方法还包括:若所述识别结果为不可识别类别,获取所述待识别文本的类别得到第一类别;采用第三算法,判断与所述第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第五参考文本指纹;若所述第四预设文本指纹库中不存在所述第五参考文本指纹,基于所述第一文本指纹和所述第一类别更新所述第四预设文本指纹库;若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库;判断所述第五预设文本指纹库中是否存在所述第五参考文本指纹,得到判断结果;根据所述判断结果对应的预设更新操作更新所述第五参考文本指纹至所述第五预设文本指纹库;删除所述第四预设文本指纹库中的所述第五参考文本指纹。可选的,所述若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库,包括:若所述第四预设文本指纹库中存在所述第五参考文本指纹,获取所述第五参考文本指纹对应的类别;对所述第一类别和所述第五参考文本指纹对应的类别进行分析,得到所述第五参考文本指纹的类别分析结果;若所述类别分析结果满足第四预设条件,根据所述第四预设条件得到所述第五参考文本指纹对应的预设文本指纹库为所述第五预设文本指纹库。可选的,所述判断结果对应的预设更新操作包括:若第六预设文本指纹库中不存在第六参考文本指纹,获取所述第六预设文本指纹库当前存储的文本指纹的数量得到第一数值;其中,所述第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,所述第六参考文本指纹为所述第六预设文本指纹库中与所述第二文本指纹对应的参考文本指纹;获取所述第六预设文本指纹库的第二数值;其中,所述第二数值为采用所述第六预设文本指纹库确定所述待识别文本的类别的准确率满足预设数值时,所述第六预设文本指纹库允许存储的文本指纹的数量;若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系满足第五预设条件,根据所述第六预设文本指纹库中的文本指纹的时间戳,删除所述第六预设文本指纹库中符合删除条件的文本指纹;存储所述第二文本指纹并标记第二文本指纹的时间戳为当前时间;若所述第本文档来自技高网...

【技术保护点】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;识别所述第一文本指纹所属的类别得到识别结果;若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。

【技术特征摘要】
1.一种文本识别方法,其特征在于,所述方法包括:获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;识别所述第一文本指纹所属的类别得到识别结果;若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别;根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库。2.根据权利要求1中所述的方法,其特征在于,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,包括:若所述识别结果为可识别类别,判断所述识别结果是否为目标类别;若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数;其中,所述预设处理规则包括至少两种处理规则;基于所述概率参数和所述概率参数对应的类别,确定所述待识别文本的类别为所述反馈类别。3.根据权利要求2中所述的方法,其特征在于,所述若所述识别结果为所述目标类别,根据预设处理规则对所述待识别文本进行处理得到所述待识别文本的概率参数,包括:若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数;基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数;对所述第一子概率参数和所述第二子概率参数进行计算,得到所述待识别文本的概率参数。4.根据权利要求3所述的方法,其特征在于,所述若所述识别结果为所述目标类别,基于第一处理规则对所述待识别文本进行处理,得到第一子概率参数,包括:统计每一预设类别的关键词在所述待识别文本中存在的个数的总和,得到统计数值;基于每一所述预设类别对应的统计数值,得到所述待识别文本的第一子概率参数。5.根据权利要求3所述的方法,其特征在于,所述基于第二处理规则对所述待识别文本进行处理,得到第二子概率参数,包括:对所述待识别文本进行分词处理得到分词;根据转换规则将每一所述分词进行转换,得到所述每一分词对应的转换参数;根据第一算法对每一所述分词对应的转换参数进行分类计算,得到所述待识别文本的第二子概率参数。6.根据权利要求2所述的方法,其特征在于,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,包括:若所述反馈类别不是所述目标类别,获取所述目标类别对应的预设文本指纹库,得到第一预设文本指纹库;采用第三算法,判断所述第一预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第一参考文本指纹;若所述第一预设文本指纹库中存在所述第一参考文本指纹,删除所述第一预设文本指纹库中的所述第一参考文本指纹。7.根据权利要求1所述的方法,其特征在于,所述若所述识别结果为可识别类别,对所述待识别文本进行类别分析得到所述待识别文本的反馈类别,还包括:若所述识别结果为可识别类别,采用第二算法,判断预设历史文本库中是否存在满足第二预设条件且与所述待识别文本对应的参考文本;若所述预设历史文本库中存在所述参考文本,获取所述参考文本的类别,并确定所述参考文本的类别为所述反馈类别。8.根据权利要求7所述的方法,其特征在于,所述根据所述识别结果与所述反馈类别,更新所述第一文本指纹对应的预设文本指纹库,还包括:若所述参考文本的类别与所述识别结果不同,获取所述参考文本的类别对应的预设文本指纹库,得到第二预设文本指纹库;采用第三算法,判断第三预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第三参考文本指纹;其中,所述第三预设文本指纹库为除所述第二预设文本指纹库之外的预设文本指纹库;若所述第三预设文本指纹库中存在所述第三参考文本指纹,删除所述第三预设文本指纹库中的所述第三参考文本指纹;采用所述第三算法,判断所述第二预设文本指纹库中是否存在满足所述第一预设条件的与所述第一文本指纹对应的第四参考文本指纹,得到判断结果;根据所述判断结果对应的预设更新操作将所述第一文本指纹更新至所述第二预设文本指纹库。9.根据权利要求1所述的方法,其特征在于,所述方法还包括:若所述识别结果为不可识别类别,获取所述待识别文本的类别得到第一类别;采用第三算法,判断与所述第一类别对应的第四预设文本指纹库中是否存在满足第一预设条件且与所述第一文本指纹对应的第五参考文本指纹;若所述第四预设文本指纹库中不存在所述第五参考文本指纹,基于所述第一文本指纹和所述第一类别更新所述第四预设文本指纹库;若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库;判断所述第五预设文本指纹库中是否存在所述第五参考文本指纹,得到判断结果;根据所述判断结果对应的预设更新操作更新所述第五参考文本指纹至所述第五预设文本指纹库;删除所述第四预设文本指纹库中的所述第五参考文本指纹。10.根据权利要求9所述的方法,其特征在于,所述若所述第四预设文本指纹库中存在所述第五参考文本指纹,基于所述第一类别和所述第五参考文本指纹对应的类别,确定所述第五参考文本指纹对应的预设指纹数据库为第五预设文本指纹库,包括:若所述第四预设文本指纹库中存在所述第五参考文本指纹,获取所述第五参考文本指纹对应的类别;对所述第一类别和所述第五参考文本指纹对应的类别进行分析,得到所述第五参考文本指纹的类别分析结果;若所述类别分析结果满足第四预设条件,根据所述第四预设条件得到所述第五参考文本指纹对应的预设文本指纹库为所述第五预设文本指纹库。11.根据权利要求8-9任一所述方法,其特征在于,所述判断结果对应的预设更新操作包括:若第六预设文本指纹库中不存在第六参考文本指纹,获取所述第六预设文本指纹库当前存储的文本指纹的数量得到第一数值;其中,所述第六预设文本指纹库为第二文本指纹对应的预设文本指纹库,所述第六参考文本指纹为所述第六预设文本指纹库中与所述第二文本指纹对应的参考文本指纹;获取所述第六预设文本指纹库的第二数值;其中,所述第二数值为采用所述第六预设文本指纹库确定所述待识别文本的类别的准确率满足预设数值时,所述第六预设文本指纹库允许存储的文本指纹的数量;若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系满足第五预设条件,根据所述第六预设文本指纹库中的文本指纹的时间戳,删除所述第六预设文本指纹库中符合删除条件的文本指纹;存储所述第二文本指纹并标记第二文本指纹的时间戳为当前时间;若所述第一数值、所述第二数值和所述第二文本指纹的数量之间的关系不满足所述第五预设条件,存储所述第二文本指纹至所述第六预设文本指纹库,并标记所述第二文本指纹的时间戳为当前时间。12.根据权利要求11所述方法,其特征在于,所述方法还包括:若所述第六预设文本指纹库中存在所述第六参考文本指纹,更新所述第六参考文本指纹的时间戳为当前时间。13.一种文本识别设备,其特征在于,所述设备包括:处理器、存储器及通信总线;其中:所述通信总线用于实现处理器和存储器之间的连接通信;所述处理器用于执行存储器中存储的文本识别程序,以实现以下步骤:获取待识别文本,并对所述待识别文本进行编码处理,得到第一文本指纹;识别所述第一文本指纹所属的类别得到识别结果;若所述识别结果为可识别类别,对...

【专利技术属性】
技术研发人员:张滨娄涛杨希周莹李婧林华生贾强汪远航
申请(专利权)人:中国移动通信集团公司中移苏州软件技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1