【技术实现步骤摘要】
政务场景热词挖掘方法、装置、设备及存储介质
[0001]本公开涉及人工智能
,具体涉及数据分析、文本识别等
,尤其涉及一种政务场景热词挖掘方法、装置、设备及存储介质。
技术介绍
[0002]热点词汇简称热词,反映了一个地区、一个时期人们普遍关注的一类问题和事物,或者反映了一个时期的热点话题及民生问题。在政务场景中,通过分析挖掘热词,可以及时发现城市中的热点话题、了解居民的诉求热点以及近期发生的核心问题,从而提高政务服务质量。
[0003]目前,针对政务场景的工单数据进行热词挖掘的方式通常包括:通过人工分词和标注的方式,确定工单数据中的关键词,对关键词进行人工筛选,得到人工配置的热词词表,热词词表中包含了一个或多个人工挖掘得到的热词。
技术实现思路
[0004]本公开提供了一种政务场景热词挖掘方法、装置、设备及存储介质,能够根据工单数据智能化地挖掘热词生成热词词表,热词词表可以根据工单数据进行及时地更新,且热词词表中热词的数量和类型较为丰富,可以为政务场景中的热词应用提供更有效地数据支撑。< ...
【技术保护点】
【技术特征摘要】
1.一种政务场景热词挖掘方法,所述方法包括:获取政务场景中的工单数据包含的文本中自由度和凝固度符合预设条件的词语;在所述词语中确定词频符合预设频率要求的第一关键词;在预设语料库包含的预设词语中确定与所述第一关键词之间的相似度符合预设相似度要求的第二关键词;对所述第一关键词和所述第二关键词进行聚类,得到至少一个热词聚类结果,每个所述热词聚类结果中包括至少一个热词、且每个所述热词聚类结果中包括的热词互为同义词,所述热词为所述第一关键词或所述第二关键词;根据所述热词聚类结果,生成热词词表,所述热词词表包括所述热词以及所述热词的同义词。2.根据权利要求1所述的方法,所述方法还包括:接收用户的热词黑名单配置操作;响应于所述热词黑名单配置操作,将所述热词黑名单配置操作对应的目标热词设置添加至热词黑名单。3.根据权利要求2所述的方法,所述将所述热词黑名单配置操作对应的目标热词设置添加至热词黑名单,包括:获取所述目标热词的模式字段;在所述目标热词的模式字段中,新增目标字段;将所述目标字段的值设置为第一值。4.根据权利要求1
‑
3任一项所述的方法,所述根据所述热词聚类结果,生成热词词表之前,所述方法还包括:通过预设的分类模型,确定所述热词的分类类别;根据所述热词的分类类别,为所述热词标注类别标签;其中,所述分类模型是采用样本热词以及所述样本热词对应的样本分类标签,对神经网络进行训练得到的。5.根据权利要求1
‑
4任一项所述的方法,所述在预设语料库包含的预设词语中确定与所述第一关键词之间的相似度符合预设相似度要求的第二关键词之前,所述方法还包括:对所述第一关键词进行过滤,筛选掉不符合预设要求的所述第一关键词。6.根据权利要求5所述的方法,所述根据所述热词聚类结果,生成热词词表之前,所述方法还包括:对所述热词进行过滤,筛选掉不符合预设要求的所述热词。7.根据权利要求1
‑
6任一项所述的方法,所述方法还包括:将所述热词词表和所述工单数据存储于弹性搜索数据库中,所述弹性搜索数据库与至少一个热词应用程序接口连接。8.一种政务场景热词挖掘装置,所述装置包括:获取单元,用于获取政务场景中的工单数据包含的文本中自由度和凝固度符合预设条件的词语;筛选单元,用于在所述词语中确定词频符合预设频率要求的第一关键词;召回单元,用于在预设语料库包含的预设词语中确定与所述第一关键词之间的相似度
符合预设相似度要求的第二关键词;挖掘单元,用于对所述第一关键词和所述第二关键词进行聚类,得到至少一个热词聚类结果,每个所述热词聚类结果中包括至少一个热词、且每个所述热词聚类结果中包括的热词互为同...
【专利技术属性】
技术研发人员:汪永清,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。