模板检验方法及装置制造方法及图纸

技术编号:15238810 阅读:137 留言:0更新日期:2017-04-29 04:37
本公开揭示了一种模板检验方法及装置,属于信息提取领域。所述模板方法包括:获取提取模板对应的关键信息项集合,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;获取属于预定分类的通信消息的有效分词集合,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。本实施例不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。

【技术实现步骤摘要】

本公开涉及信息提取领域,特别涉及一种模板检验方法及装置
技术介绍
短信卡片是一种将普通短信转化为电子卡片进行显示的增强型显示技术。短信卡片的实现原理是:在接收到通知短信时,利用提取模板对该通知短信内的关键信息项进行提取,然后将提取到的各个关键信息项填充至预设卡片样式中,将该通知短信以电子卡片显示给用户。比如,在收到一条有关火车票的订票短信时,将该订票短信中的时间、车次、出发站、目的站、车厢号、座位号等信息项进行提取,并将时间、车次、出发站、目的站、车厢号、座位号等关键信息项填充至一张与实体火车票类似的电子卡片中进行显示。短信卡片的显示效果依赖于提取模板的提取准确性,若提取模板对关键信息项的提取存在遗漏,比如没有提取到座位号,就会导致用户无法获知一部分信息。相关技术中,需要用户向开发人员反馈短信卡片的提取错误后,由开发人员对提取模板进行修改,使得提取模板的提取变得更准确。
技术实现思路
为了解决提取模板在短信中提取关键信息项时,可能会存在遗漏的问题,本公开提供一种模板检验方法及装置。所述技术方案如下:根据本公开的第一方面,提供了一种模板检验方法,该方法包括:获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。可选地,获取属于预定分类的通信消息的有效分词集合,包括:获取属于预定分类的至少一条通信消息;将通信消息进行分词,得到全量分词集合;使用提取模板对通信消息进行提取,得到提取词语集合;将全量分词集合与提取词语集合相减,得到差集;将差集中的分词进行过滤,得到有效分词集合。可选地,将差集中的分词进行过滤,得到有效分词集合,包括:将差集中符合预设词性的词语进行滤除,得到有效滤除集合;和/或,将差集中符合预设过滤词的词语进行滤除,得到有效分词集合;其中,预设词性是无效分词对应的词性,预设过滤词是预先为预定分类所设置的过滤词。可选地,检测有效分词在关键信息项集合中是否存在匹配的关键信息项,包括:检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;和/或,检测关键信息项集合中是否存在第二关键信息项,第二关键信息项与有效分词的字符串不同但语义相同。可选地,检测有效分词在关键信息项集合中是否存在匹配的关键信息项之后,包括:若全部的有效分词均存在匹配的关键信息项,则确定提取模板符合预设要求。根据本公开的第二方面,提供了一种模板检验装置,该装置包括:第一获取模块,被配置为获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;第二获取模块,被配置为获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;检测模块,被配置为检测有效分词在关键信息项集合中是否存在匹配的关键信息项;确定模块,被配置为当不存在匹配的关键信息项时,确定提取模板存在遗漏的关键信息项。可选地,第二获取模块,包括:获取子模块、分词子模块、提取子模块、差集子模块和过滤子模块;获取子模块,被配置为获取属于预定分类的通信消息库,通信消息库包括至少一条通信消息;分词子模块,被配置为将通信消息库中的通信消息进行分词,得到全量分词集合;提取子模块,被配置为使用提取模板对通信消息进行提取,得到提取词语集合;差集子模块,被配置为将全量分词集合与提取词语集合相减,得到差集;过滤子模块,被配置为将差集中的分词进行过滤,得到有效分词集合。可选地,过滤子模块,被配置为将差集中符合预设词性的词语进行滤除,得到有效滤除集合;和/或,过滤子模块,被配置为将差集中符合预设过滤词的词语进行滤除,得到有效分词集合;其中,预设词性是无效分词对应的词性,预设过滤词是预先为预定分类所设置的过滤词。可选地,检测模块,被配置为检测关键信息项集合中是否存在第一关键信息项,第一关键信息项与有效分词的字符串相同;和/或,检测模块,被配置为检测关键信息项集合中是否存在第二关键信息项,第二关键信息项与有效分词的字符串不同但语义相同。可选地,确定模块,还被配置为当全部的有效分词均存在匹配的关键信息项时,确定提取模板的提取准确率符合预设要求。根据本公开的第三方面,提供了一种模板检验装置,该装置包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为:获取提取模板对应的关键信息项集合,提取模板是用于从通信消息中提取关键信息项并以电子卡片进行显示的模板,关键信息项集合包括提取模板提取的至少一个关键信息项;获取属于预定分类的通信消息的有效分词集合,预定分类是与提取模板对应的通信消息分类,有效分词集合包括从通信消息的分词结果中筛选出的至少一个有效分词;检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项。本公开的实施例提供的技术方案可以包括以下有益效果:通过对原始的通信消息进行分词后得到有效分词,检测有效分词在关键信息项集合中是否存在匹配的关键信息项;若不存在匹配的关键信息项,则确定提取模板存在遗漏的关键信息项;不需要用户主动上报,由服务器对原始的通信消息进行分析,即可对提取模板的提取准确性进行检验,从而实现服务器自动发现提取模板是否存在遗漏,以便及时对提取模板进行改进的效果。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并于说明书一起用于解释本公开的原理。图1是相关技术提供的一种短信卡片的原理示意图;图2是一个示例性实施例提供的模板检验方法的流程图;图3是另一个示例性实施例提供的模板检验方法的流程图;图4是一个示例性实施例提供的模板检验装置的框图;图5是另一个示例性提供的模板检验装置的框图;图6是一个示例性实施例提供的模板检验装置的框图。具体实施方式这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。首先对本公开实施例涉及的若干个名词进行简介:通信消息:是指短信息(ShortMessageService,SMS)或者即时通信消息,通信消息通常是文本消息。卡片式消息:以电子卡片形式显示的通信消息。可选地,通知类的通信消息适用于以电子卡片形式进行显示。示意性的参考图1,当终端接收到一条有关机票订购的短信息“你好,您在×××旅行社预定的11月30日CA14*7,11月30日CA14*7在上午8:30从哈尔滨的太平国际机场起飞,在下午15:30到达北京的本文档来自技高网...

【技术保护点】
一种模板检验方法,其特征在于,所述方法包括:获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。

【技术特征摘要】
1.一种模板检验方法,其特征在于,所述方法包括:获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中筛选出的至少一个有效分词;检测所述有效分词在关键信息项集合中是否存在匹配的所述关键信息项;若不存在匹配的所述关键信息项,则确定所述提取模板存在遗漏的关键信息项。2.根据权利要求1所述的方法,其特征在于,所述获取属于预定分类的通信消息的有效分词集合,包括:获取属于所述预定分类的至少一条通信消息;将所述通信消息进行分词,得到全量分词集合;使用所述提取模板对所述通信消息进行提取,得到提取词语集合;将所述全量分词集合与所述提取词语集合相减,得到差集;将所述差集中的分词进行过滤,得到所述有效分词集合。3.根据权利要求2所述的方法,其特征在于,所述将所述差集中的分词进行过滤,得到所述有效分词集合,包括:将所述差集中符合预设词性的词语进行滤除,得到所述有效滤除集合;和/或,将所述差集中符合预设过滤词的词语进行滤除,得到所述有效分词集合;其中,所述预设词性是无效分词对应的词性,所述预设过滤词是预先为所述预定分类所设置的过滤词。4.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述有效分词在所述关键信息项集合中是否存在匹配的所述关键信息项,包括:检测所述关键信息项集合中是否存在第一关键信息项,所述第一关键信息项与所述有效分词的字符串相同;和/或,检测所述关键信息项集合中是否存在第二关键信息项,所述第二关键信息项与所述有效分词的字符串不同但语义相同。5.根据权利要求1至3任一所述的方法,其特征在于,所述检测所述有效分词在所述关键信息项集合中是否存在匹配的所述关键信息项之后,包括:若全部的所述有效分词均存在匹配的所述关键信息项,则确定所述提取模板符合预设要求。6.一种模板检验装置,其特征在于,所述装置包括:第一获取模块,被配置为获取提取模板对应的关键信息项集合,所述提取模板是用于从通信消息中提取关键信息项的模板,所述关键信息项集合包括所述提取模板提取的至少一个所述关键信息项;第二获取模块,被配置为获取属于预定分类的通信消息的有效分词集合,所述预定分类是与所述提取模板对应的通信消息分类,所述有效分词集合包括从所述通信消息的分词结果中...

【专利技术属性】
技术研发人员:陈信吉赵建凯牛坤赵振海
申请(专利权)人:北京小米移动软件有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1