一种文本模式学习方法及电子设备技术

技术编号:14290687 阅读:76 留言:0更新日期:2016-12-25 20:59
本发明专利技术公开一种文本模式学习方法及电子设备。所述文本模式学习方法包括:获取初始文本模式;将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式。采用本发明专利技术的方法或电子设备,可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。

【技术实现步骤摘要】

本专利技术涉及文本识别领域,特别是涉及一种文本模式学习方法及电子设备
技术介绍
随着信息技术的不断发展,电子设备接收到的信息也越来越多。电子设备接收到的信息增多,使得电子设备的用户需要处理的信息量也增加。但是,并非所有的信息都是需要用户进行处理的。一部分信息可以从某种程度上归类为垃圾信息。例如,内容为“还在为发票犯愁吗?我司办理国税、地税和增值税等各种发票,李经理13566666666”的短信,通常被归类为垃圾短信。为了节省用户的时间,提高用户的使用感受,现有技术中,在将信息显示给用户之前,采用文本识别方法对信息内容进行筛选、过滤。该文本识别方法主要是预先设置一些被确定为垃圾短信的语言模式,将接收到的信息与预先设置的语言模式进行比对,如果比对成功,则将该信息确定为垃圾短信。但是,现有技术中对于垃圾短信的语言模式的确定方法,主要是人工总结。人工总结,需要人工浏览文本,并进行模式整理,因此时间成本和人力成本较高,且难以将各种模式总结完全。
技术实现思路
本专利技术的目的是提供一种文本模式学习方法及电子设备,可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。为实现上述目的,本专利技术提供了如下方案:一种文本模式学习方法,包括:获取初始文本模式;将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式。可选的,所述从语料库中确定第一文本集合,具体包括:从语料库中确定与该第一子模式相匹配的第一文本集合。可选的,所述学习所述第一文本集合,得到第一扩展模式之后,还包括:评价各个所述第一扩展模式;从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。可选的,所述确定评分大于预设阈值的第二扩展模式之后,还包括:合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;将所述更新后的初始文本模式拆分为多个第二子模式;对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;学习所述第二文本集合,得到第三扩展模式。可选的,所述将所述初始文本模式拆分为多个第一子模式,具体包括:从所述初始文本模式拆分出前缀模式;所述前缀模式至少包含所述初始文本模式的首字符;从所述初始文本模式拆分出后缀模式;所述后缀模式至少包含所述初始文本模式的末字符。可选的,所述从语料库中确定第一文本集合,具体包括:确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹
配的第一文本集合。一种电子设备,包括:初始文本模式获取单元,用于获取初始文本模式;第一拆分单元,用于将所述初始文本模式拆分为多个第一子模式;第一文本集合确定单元,用于基于所述第一子模式,从语料库中确定第一文本集合;第一学习单元,用于学习所述第一文本集合,得到第一扩展模式。可选的,所述第一文本集合确定单元,具体包括:第一文本集合确定子单元,用于从语料库中确定与该第一子模式相匹配的第一文本集合。可选的,还包括:评价单元,用于在学习所述第一文本集合,得到第一扩展模式之后,评价各个所述第一扩展模式;第二扩展模式确定单元,用于从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。可选的,还包括:合并单元,用于在确定评分大于预设阈值的第二扩展模式之后,合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;第二拆分单元,用于将所述更新后的初始文本模式拆分为多个第二子模式;第二文本集合确定单元,用于对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;第二学习单元,用于学习所述第二文本集合,得到第三扩展模式。可选的,所述第一拆分单元,具体包括:前缀模式拆分子单元,用于从所述初始文本模式拆分出前缀模式;所述前缀模式至少包含所述初始文本模式的首字符;后缀模式拆分子单元,用于从所述初始文本模式拆分出后缀模式;所述后缀模式至少包含所述初始文本模式的末字符。可选的,所述第一文本集合确定单元,具体包括:第二文本集合确定子单元,用于确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹配的第一文本集合。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术实施例中的文本模式学习方法及电子设备,通过将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式;可以利用已有的语言模式从语料库中学习得到更多的语言模式,从而降低时间成本和人力成本,并且可以总结出较为完全的语言模式。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术的文本模式学习方法实施例1的流程图;图2为本专利技术的文本模式学习方法实施例2的流程图;图3为本专利技术的文本模式学习方法实施例3的流程图;图4为本专利技术的电子设备实施例的结构图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。本专利技术的文本模式学习方法,可以应用于具有数据处理功能的电子设备。所述电子设备可以是手机、平板电脑、台式机、服务器等等。图1为本专利技术的文本模式学习方法实施例1的流程图。如图1所示,该方法可以包括:步骤101:获取初始文本模式;所述初始文本模式,也可以称为种子模式。所述初始文本模式,是预先总结得到的可以用于识别某种特定类型的文本的模式。例如,一个初始文本模式为“我司提供发票”。根据该文本模式可以对垃圾短信进行识别。假设一条短信中存在“我司提供发票”的短语,则可以将该短信识别为垃圾短信。步骤102:将所述初始文本模式拆分为多个第一子模式;可以对所述初始文本模式进行拆分。例如,可以将所述初始文本模式拆分为前缀模式和后缀模式。假设对“我司提供发票”这一初始文本模式进行拆分,至少可以拆分出“我司提供”这一前缀模式,和“提供发票”这一后缀模式。步骤103:基于所述第一子模式,从语料库中确定第一文本集合;所述语料库,是一些语句的集合,是进行文本模式学习的素材。假设需要学习垃圾短信的文本模式,则所述语料库中的语句可以是来自于垃圾短信的语句。所述第一子模式可以有多个。对于每一个第一子模式,可以从语料库中确
定出第一文本集合。所述第一文本集合可以是与所述第一子模式相匹配的文本集合,也可以是与某一个第一子模式和某一个初始文本模式同时匹配的文本集合。步骤104:学习所述第一文本集合,得到第一扩展模式。由于所述第一子模式有多个,所以所述第一文本集合也可以有多个。对于任意一个第一文本集合,可以从所述第一文本集合中学习得到新的模式。对于所述第一文本集合的学习过程,主要是分析所述第一文本文档来自技高网
...
一种文本模式学习方法及电子设备

【技术保护点】
一种文本模式学习方法,其特征在于,包括:获取初始文本模式;将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式。

【技术特征摘要】
1.一种文本模式学习方法,其特征在于,包括:获取初始文本模式;将所述初始文本模式拆分为多个第一子模式;基于所述第一子模式,从语料库中确定第一文本集合;学习所述第一文本集合,得到第一扩展模式。2.根据权利要求1所述的方法,其特征在于,所述从语料库中确定第一文本集合,具体包括:从语料库中确定与该第一子模式相匹配的第一文本集合。3.根据权利要求1所述的方法,其特征在于,所述学习所述第一文本集合,得到第一扩展模式之后,还包括:评价各个所述第一扩展模式;从所述第一扩展模式中,确定评分大于预设阈值的第二扩展模式。4.根据权利要求3所述的方法,其特征在于,所述确定评分大于预设阈值的第二扩展模式之后,还包括:合并所述初始文本模式和所述第二扩展模式,得到更新后的初始文本模式;将所述更新后的初始文本模式拆分为多个第二子模式;对于任意一个第二子模式,从语料库中确定与该第二子模式相匹配的第二文本集合;学习所述第二文本集合,得到第三扩展模式。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述将所述初始文本模式拆分为多个第一子模式,具体包括:从所述初始文本模式拆分出前缀模式;所述前缀模式至少包含所述初始文
\t本模式的首字符;从所述初始文本模式拆分出后缀模式;所述后缀模式至少包含所述初始文本模式的末字符。6.根据权利要求1所述的方法,其特征在于,所述从语料库中确定第一文本集合,具体包括:确定同时与任意一个所述第一子模式及任意一个所述初始文本模式相匹配的第一文本集合。7.一种电子设备,其特征在于,包括:初始文本模式获取单元,用于获取初始文本模式;第一拆分单元,用于将所述初始文本模式拆分为多个第一子模式...

【专利技术属性】
技术研发人员:贾炜曹存根周丹
申请(专利权)人:联想北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1