一种意图模板库构建方法、装置及存储介质制造方法及图纸

技术编号:23344310 阅读:38 留言:0更新日期:2020-02-15 04:11
本发明专利技术公开了一种意图模板库构建方法、装置及计算机存储介质,首先获取标注数据;接着利用命名实体识别模型对所获取的标注数据进行数据处理,得到处理结果;再按照特定生成规则对所述处理结果进行模板生成;最后将生成的模板存入意图模板库。

A construction method, device and storage medium of intention template library

【技术实现步骤摘要】
一种意图模板库构建方法、装置及存储介质
本专利技术涉及文本信息处理领域,尤其涉及一种意图模板库构建方法、装置及计算机存储介质。
技术介绍
目前,在智能短信处理中,智能短信范式系统得到广泛应用。短信样板里已知范式的累计覆盖率占比超过了70%。然而,当前智能短信范式系统的范式生成流程中存在如下明显缺陷:1)人工制作语义模板效率低,泛化性差;2)属于完全依靠深度学习的端到端的解决方案,无法很好的应用于手机端,对性能、RAM/ROM等要求很高。
技术实现思路
本专利技术实施例为了解决目前智能短信处理过程在所存在的以上潜在问题,创造性地提供一种意图模板库构建方法、装置及计算机存储介质。根据本专利技术的第一方面,提供一种意图模板库构建方法,该方法包括:获取标注数据;利用命名实体识别模型对所获取的标注数据进行数据处理,得到处理结果;按照特定生成规则对所述处理结果进行模板生成;将生成的模板存入意图模板库。根据本专利技术一实施方式,所述利用命名实体识别模型对所获取的标注数据进行数据处理,得到处理结果,包括:对所述标注数本文档来自技高网...

【技术保护点】
1.一种意图模板库构建方法,其特征在于,所述方法包括:/n获取标注数据;/n利用预训练的命名实体识别模型对所获取的标注数据进行数据处理,得到处理结果;/n按照特定生成规则对所述处理结果进行模板生成;/n将生成的模板存入意图模板库;/n其中,按照特定生成规则对所述处理结果进行模板生成,包括:对所述处理结果中所有文本进行聚类,生成聚类ID和对应的文本范式;对所生成的所有文本范式中的头部范式与其他范式做分隔处理,得到分隔处理结果;针对所述分隔处理结果中每一个聚类ID对应的范式,向每一个@key@的两侧特定阈值字符长度内查找特征;根据所查找到的特征进行模板生成。/n

【技术特征摘要】
1.一种意图模板库构建方法,其特征在于,所述方法包括:
获取标注数据;
利用预训练的命名实体识别模型对所获取的标注数据进行数据处理,得到处理结果;
按照特定生成规则对所述处理结果进行模板生成;
将生成的模板存入意图模板库;
其中,按照特定生成规则对所述处理结果进行模板生成,包括:对所述处理结果中所有文本进行聚类,生成聚类ID和对应的文本范式;对所生成的所有文本范式中的头部范式与其他范式做分隔处理,得到分隔处理结果;针对所述分隔处理结果中每一个聚类ID对应的范式,向每一个@key@的两侧特定阈值字符长度内查找特征;根据所查找到的特征进行模板生成。


2.根据权利要求1所述的方法,其特征在于,所述利用命名实体识别模型对所获取的标注数据进行数据处理,得到处理结果,包括:
对所述标注数据进行命名实体识别模型识别,得到识别结果;
将所述识别结果进行分类处理,得到处理结果。


3.根据权利要求2所述的方法,其特征在于,所述将所述识别结果进行分类处理,得到处理结果,包括:
若所述识别结果为value,则用@key@替换所述value;
若所述识别结果不是value,则用@Ner_类别@替换所述识别结果;
若所述识别结果为Ner未识别数据,则用@key@替换所述Ner未识别数据;
若所述识别结果为未进行处理的数字,则对所述数字进行正则归一化处理。


4.根据权利要求1所述的方法,其特征在于,所述按照特定生成规则对所述处理结果进行模板生成,包括:
在所述处理结果中向每一个@key@的两侧特定阈值字符长度内查找特征;
根据所查找到的特征进行模板生成。
...

【专利技术属性】
技术研发人员:崔燕红
申请(专利权)人:北京泰迪熊移动科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1