【技术实现步骤摘要】
信息识别方法、装置、设备及介质
本申请涉及互联网
,具体涉及计算机
,尤其涉及一种信息识别方法、一种信息识别装置、一种计算机设备及一种计算机存储介质。
技术介绍
服务类文本是日常生活中较为常见的一类文本,其以各种途径的文本形式存在;例如,短信信息的短信文本、邮件信息的邮件文本、即时通讯应用所推送的服务信息文本(如微信公众号推送的文章),等等。目前,识别服务类文本最常用的方法为:通过识别信息文本的信息来源,以根据信息来源确定信息文本是否为服务类文本。例如,若某信息文本的信息来源为通信运营商的服务号码(如10086),则可确定该信息文本为服务类文本;又如,若某信息文本的信息来源为微信公众号,则可确定该信息文本为服务类文本。由于服务类文本通常具备来源广泛的特点,这使得无法预先获取到所有服务类文本的信息来源;因此,通过信息来源识别服务类文本的方式容易因为信息源查漏的问题,而导致无法较为准确地识别出服务类文本,其识别准确性较低。
技术实现思路
本专利技术实施例提供了一种信息识别方法、装置、设备及介质,可 ...
【技术保护点】
1.一种信息识别方法,其特征在于,包括:/n获取待识别的目标信息文本;/n将所述目标信息文本与服务信息模板进行匹配,所述服务信息模板是对服务文本类型下的样本文本集进行频繁序列模式挖掘得到的;/n若匹配成功,则将所述目标信息文本识别为服务类文本。/n
【技术特征摘要】
1.一种信息识别方法,其特征在于,包括:
获取待识别的目标信息文本;
将所述目标信息文本与服务信息模板进行匹配,所述服务信息模板是对服务文本类型下的样本文本集进行频繁序列模式挖掘得到的;
若匹配成功,则将所述目标信息文本识别为服务类文本。
2.如权利要求1所述的方法,其特征在于,所述在将所述目标信息识别为服务类文本之后,所述方法还包括:
将所述目标信息文本添加至服务信息集合中;
若所述目标信息文本为实时接收到的信息文本,则获取与所述服务类文本对应的信息提醒方式,并按照所述信息提醒方式输出所述目标信息文本。
3.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取服务文本类型下的样本文本集;所述样本文本集包括多个样本文本,且每个样本文本中包括多个字符;
对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式;每个序列模式中的各字符的字频大于所述频率阈值;所述字符的字频用于反映所述样本文本集中包含所述字符的样本文本的数量;
对所述多个序列模式进行规则整合,得到所述服务文本类型的目标序列模式;并根据所述目标序列模式生成所述服务文本类型所对应的服务信息模板。
4.如权利要求3所述的方法,其特征在于,所述对所述样本文本集进行频繁序列模式挖掘,得到多个序列模式,包括:
根据所述样本文本集中的各个字符的字频,从所述样本文本集中选取多个一项前缀,每个一项前缀由一个字频大于频率阈值的字符构成;
采用各个一项前缀分别构建序列模式,并获取所述各个一项前缀的投影数据集;所述投影数据集中包含前缀在各个样本文本中所对应的后缀,一个后缀由一个样本文本中位于所述前缀后的字符所构成;
对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀;并采用N项前缀分别构建序列模式;N为大于一的正整数。
5.如权利要求4所述的方法,其特征在于,所述对所述各个一项前缀的投影数据集进行递归挖掘,得到N项前缀,包括:
对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集;
若所述各个二项前缀的投影数据集均满足结束条件,则结束递归挖掘;否则,则对不满足所述结束条件的二项前缀的投影数据集进行挖掘,得到至少一个三项前缀以及各个三项前缀的投影数据集;
若所述各个三项前缀的投影数据集均满足所述结束条件,则结束递归挖掘;否则继续挖掘,直至挖掘得到的投影数据集满足所述结束条件;所述结束条件包括:所述挖掘得到的投影数据集为空,或所述挖掘得到的投影数据集中各字符的字频小于或等于所述频率阈值。
6.如权利要求5所述的方法,其特征在于,所述对所述各个一项前缀的投影数据集进行挖掘,得到至少一个二项前缀以及各个二项前缀的投影数据集,包括:
从任意一项前缀的投影数据集中选取任一个后缀作为目标后缀,并根据所述频率阈值从所述目标后缀中获取待合并字符,所述待合并字符满足如下条件:所述待合并字符的字频大于所述频率阈值,且所述目标后缀中位于所述待合并字符之前的各字符的字频均小于或等于所述频率阈值;
合并所述任意一项前缀和所述待合并字符,得到二项前缀;并从所述任意一项前缀的投影数据集中确定包含所述待合并字符的待构建后缀;
删除所述待构建后缀中位于所述待合并字符之前的字符以及所述待合并字符,得到所述二项前缀所对应的后缀;并将所述二项前缀所对应的后缀添加至所述二项前缀的投影数据集中;
若所述任意一项前缀对应的投影数据集中的各后缀均被选...
【专利技术属性】
技术研发人员:刘志煌,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。