通知文本信息实体属性抽取方法、计算机设备及存储介质技术

技术编号:27935615 阅读:30 留言:0更新日期:2021-04-02 14:15
本发明专利技术提供了一种通知文本信息实体属性抽取方法、计算机设备及存储介质,其中,该方法包括:获取通知文本信息,所述通知文本信息包括服务商标识和通知文本内容;对通知文本内容进行分词,得到分词结果;根据分词结果查询预先建立的高频词汇表,得到文本特征;根据文本特征和服务商标识,利用预先训练的文本分类模型,计算得到服务类别;获取服务商标识和服务类别对应的预先建立的关键词和正则表达式的映射关系;利用快速文本匹配文本中包含的关键词并获取可能匹配的正则表达式集合,得到正则表达式集合;利用正则表达式集合提取通知文本内容的实体属性信息。通过上述方案能够基于服务消息与推送通知实现对用户画像和行为进行分析。

【技术实现步骤摘要】
通知文本信息实体属性抽取方法、计算机设备及存储介质
本专利技术涉及大数据
,尤其涉及一种通知文本信息实体属性抽取方法、计算机设备及存储介质。
技术介绍
随着移动互联网技术的发展,多种多样的推送平台被用于服务消息与推送通知作为重要的消息推送手段,SP运营商通常通过定制的短信服务或者通知内容实现业务消息的提醒、登录验证等功能,比较常见是银行短信账单、网站注册登录验证码、快递递送通知、商品营销推送等,这些通知内容通常包含特定的用户行为信息,对应有消费行为、网站登录行为、快递服务、商品偏好等,所以基于服务消息与推送通知应能实现终端用户的画像与行为分析。然而,现有的基于服务消息与推送通知提取信息中的有效实体并镜像用户画像与行为分析的方案大多是通过预设正则或是模板的方式,存在模板更新不及时的问题;而利用自然语言处理中实体抽取来实现用户画像则需要大量的计算资源。
技术实现思路
本专利技术提供了一种通知文本信息实体属性抽取方法、计算机设备及存储介质,以基于服务消息与推送通知实现对用户画像和行为进行分析。r>为了达到上述目的本文档来自技高网...

【技术保护点】
1.一种通知文本信息实体属性抽取方法,其特征在于,包括:/n获取通知文本信息,所述通知文本信息包括服务商标识和通知文本内容;/n对通知文本内容进行分词,得到分词结果;/n根据分词结果查询预先建立的高频词汇表,得到文本特征;/n根据文本特征和服务商标识,利用预先训练的文本分类模型,计算得到服务类别;/n获取服务商标识和服务类别对应的预先建立的关键词和正则表达式的映射关系;/n检索通知文本内容中包含的关键词,根据检索到的关键词查找获取的关键词和正则表达式的映射关系,得到检索的关键词对应的正则表达式集合,作为潜在的正则表达式匹配模板;/n对通知文本内容遍历匹配潜在的正则表达式匹配模板,提取得到通知文...

【技术特征摘要】
1.一种通知文本信息实体属性抽取方法,其特征在于,包括:
获取通知文本信息,所述通知文本信息包括服务商标识和通知文本内容;
对通知文本内容进行分词,得到分词结果;
根据分词结果查询预先建立的高频词汇表,得到文本特征;
根据文本特征和服务商标识,利用预先训练的文本分类模型,计算得到服务类别;
获取服务商标识和服务类别对应的预先建立的关键词和正则表达式的映射关系;
检索通知文本内容中包含的关键词,根据检索到的关键词查找获取的关键词和正则表达式的映射关系,得到检索的关键词对应的正则表达式集合,作为潜在的正则表达式匹配模板;
对通知文本内容遍历匹配潜在的正则表达式匹配模板,提取得到通知文本内容的实体属性信息。


2.如权利要求1所述的通知文本信息实体属性抽取方法,其特征在于,检索通知文本内容中包含的关键词,根据检索到的关键词查找获取的关键词和正则表达式的映射关系,得到检索的关键词对应的正则表达式集合,包括:
利用服务商标识和服务类别对应的预先构造的字典树检索通知文本内容中包含的关键词;
根据检索到的关键词查找获取的关键词和正则表达式的映射关系,得到检索的关键词对应的正则表达式集合。


3.如权利要求1所述的通知文本信息实体属性抽取方法,其特征在于,还包括:训练文本分类模型;
训练文本分类模型,包括:
获取历史通知文本信息集,每条历史通知文本信息包括服务商标识和历史通知文本内容;
将历史通知文本信息集按服务商标识进行分组,得到每个服务商标识对应的历史通知文本内容集;
将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较,并将相似的历史通知文本内容放在同一个相似文本组中;
从同一个服务商标识对应的各相似文本组中各抽取部分历史通知文本内容,并获取抽取的各历史通知文本内容对应的服务类别标签;
对抽取的各历史通知文本内容进行分词,并根据分词结果查询预先建立的高频词汇表,得到相应历史通知文本内容的文本特征;
根据抽取的每条历史通知文本内容的文本特征、服务商标识、及服务类别标签形成一个分类训练样本,并将分类训练样本中的文本特征和服务商标识输入至设定分类器模型,得到预测的服务类别;
根据预测的服务类别和相应的分类训练样本中的服务类别标签计算损失函数,并将损失函数返回至设定分类器模型,以训练该设定分类器模型,直到满足设定训练条件,根据训练后的设定分类器模型得到文本分类模型。


4.如权利要求3所述的通知文本信息实体属性抽取方法,其特征在于,还包括:建立高频词汇表;
建立高频词汇表,包括:
根据分词结果查询预先建立的高频词汇表,得到相应历史通知文本内容的文本特征之前,获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容的分词结果,统计所有分词结果中词汇的出现频次,并根据出现频次靠前的设定数量的词汇得到高频词汇表。


5.如权利要求1至4任一项所述的通知文本信息实体属性抽取方法,其特征在于,还包括:建立关键词和正则表达式的映射关系;
建立关键词和正则表达式的映射关系,包括:
获取从各服务商标识对应的各相似文本组中抽取的历史通知文本内容,并获取抽取的历史通知文本内容对应的实体标注标签;
根据抽取的每个历史通知文本内容和相应的实体标注标签形成命名体识别训练样本,并利用命名体识别训练样本对设定识别模型进行训练,得到命名体识别模型;
利用命名体识别模型对每个服务商标识对应的每个相似文本组的历史通知文本内容进行实体抽取,得到相应历史通知文本内容的实体数据;
将每个服务商标识对应的每个相似文本组的每个历史通知文本内容的实体数据替换为正则规则,得到相应的正则表达式;
提取每个服务商标识对应的每个相似文本组的每个历史通知文本内容对应的正则表达式中的关键词,得到关键词和正则表达式的映射关系;
其中,相似文本组是通过将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较,并将相似的历史通知文本内容放在同一个组中得到。


6.如权利要求3所述的通知文本信息实体属性抽取方法,其特征在于,将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容两两进行文本相似性比较之前,训练文本分类模型,还包括:
对每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行清洗;
其中,对每个服务商标识对应的历史通知文本内容集中的历史通知文本内容进行清洗包括:将每个服务商标识对应的历史通知文本内容集中的历史通知文本内容中的设定固定特征替换为占位符。


7.如权利要求6所述的通知文本信息实体属性抽取方法,其特征在于,还包括:建立关键词和正则表达式的映射关系;
建立关键词和正则表达式...

【专利技术属性】
技术研发人员:刘孟奇羊晋司俊俊涂波
申请(专利权)人:北京数业专攻科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1