政务场景热词挖掘方法、装置、设备及存储介质制造方法及图纸

技术编号:37346513 阅读:11 留言:0更新日期:2023-04-22 21:40
本公开提供一种政务场景热词挖掘方法、装置、设备及存储介质,涉及人工智能技术领域,具体涉及数据分析、文本识别等技术领域,可应用于接诉即办、舆情态势感知等场景下。具体实现方案包括:获取工单数据包含的词语;确定词频符合预设频率要求的第一关键词;在预设语料库中确定与第一关键词之间的相似度符合预设相似度要求的第二关键词;对第一关键词和第二关键词进行聚类,得到热词聚类结果,热词聚类结果中包括热词、且热词聚类结果中包括的热词互为同义词;根据热词聚类结果,生成热词词表。本公开可以根据工单数据智能化地挖掘热词生成热词词表,热词词表可以根据工单数据进行及时地更新,且热词词表中热词的数量和类型较为丰富。富。富。

【技术实现步骤摘要】
政务场景热词挖掘方法、装置、设备及存储介质


[0001]本公开涉及人工智能
,具体涉及数据分析、文本识别等
,尤其涉及一种政务场景热词挖掘方法、装置、设备及存储介质。

技术介绍

[0002]热点词汇简称热词,反映了一个地区、一个时期人们普遍关注的一类问题和事物,或者反映了一个时期的热点话题及民生问题。在政务场景中,通过分析挖掘热词,可以及时发现城市中的热点话题、了解居民的诉求热点以及近期发生的核心问题,从而提高政务服务质量。
[0003]目前,针对政务场景的工单数据进行热词挖掘的方式通常包括:通过人工分词和标注的方式,确定工单数据中的关键词,对关键词进行人工筛选,得到人工配置的热词词表,热词词表中包含了一个或多个人工挖掘得到的热词。

技术实现思路

[0004]本公开提供了一种政务场景热词挖掘方法、装置、设备及存储介质,能够根据工单数据智能化地挖掘热词生成热词词表,热词词表可以根据工单数据进行及时地更新,且热词词表中热词的数量和类型较为丰富,可以为政务场景中的热词应用提供更有效地数据支撑。
[0005]根据本公开的第一方面,提供了一种政务场景热词挖掘方法,所述方法包括:
[0006]获取政务场景中的工单数据包含的文本中自由度和凝固度符合预设条件的词语;在词语中确定词频符合预设频率要求的第一关键词;在预设语料库包含的预设词语中确定与第一关键词之间的相似度符合预设相似度要求的第二关键词;对第一关键词和第二关键词进行聚类,得到至少一个热词聚类结果,每个热词聚类结果中包括至少一个热词、且每个热词聚类结果中包括的热词互为同义词,热词为第一关键词或第二关键词;根据热词聚类结果,生成热词词表,热词词表包括热词以及热词的同义词。
[0007]根据本公开的第二方面,提供了一种政务场景热词挖掘装置,所述装置包括:
[0008]获取单元,用于获取政务场景中的工单数据包含的文本中自由度和凝固度符合预设条件的词语;筛选单元,用于在词语中确定词频符合预设频率要求的第一关键词;召回单元,用于在预设语料库包含的预设词语中确定与第一关键词之间的相似度符合预设相似度要求的第二关键词;挖掘单元,用于对第一关键词和第二关键词进行聚类,得到至少一个热词聚类结果,每个热词聚类结果中包括至少一个热词、且每个热词聚类结果中包括的热词互为同义词,热词为第一关键词或第二关键词;热词配置单元,用于根据热词聚类结果,生成热词词表,热词词表包括热词以及热词的同义词。
[0009]根据本公开的第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如
第一方面所述的方法。
[0010]根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行根据第一方面所述的方法。
[0011]根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面所述的方法。
[0012]根据本公开的第六方面,提供了一种热词系统,包括:热词解析模块、弹性搜索数据库、以及服务模块;热词解析模块根据第一方面的方法,获取热词词表;弹性搜索数据库用于存储热词词表;服务模块与弹性搜索数据库连接,且服务模块包括至少一个热词应用程序接口。
[0013]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0014]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0015]图1为本公开实施例提供的政务场景热词挖掘方法的流程示意图;
[0016]图2为本公开实施例提供的政务场景热词挖掘方法的另一流程示意图;
[0017]图3为本公开实施例提供的热词黑名单的一种配置流程示意图;
[0018]图4为本公开实施例提供的政务场景热词挖掘方法的又一流程示意图;
[0019]图5为本公开实施例提供的热词系统的组成示意图;
[0020]图6为本公开实施例提供的政务场景热词挖掘装置的组成示意图;
[0021]图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]应当理解,在本公开各实施例中,字符“/”一般表示前后关联对象是一种“或”的关系。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。
[0024]热点词汇简称热词,反映了一个地区、一个时期人们普遍关注的一类问题和事物,或者反映了一个时期的热点话题及民生问题。在政务场景中,通过分析挖掘热词,可以及时发现城市中的热点话题、了解居民的诉求热点以及近期发生的核心问题,从而提高政务服务质量。
[0025]例如,可以针对民众投诉的政务工单进行热词挖掘,及时了解到居民的诉求热点以及近期发生的核心问题。
[0026]目前,针对政务场景的工单数据进行热词挖掘的方式通常包括:通过人工分词和标注的方式,确定工单数据中的关键词,对关键词进行人工筛选,得到人工配置的热词词表,热词词表中包含了一个或多个人工挖掘得到的热词。
[0027]但是,目前的热词词表无法随时工单数据进行及时地更新,且人工配置的热词词表中热词的数量和类型存在局限性,不够全面。
[0028]本公开提供了一种政务场景热词挖掘方法,能够根据工单数据智能化地挖掘热词生成热词词表,热词词表可以根据工单数据进行及时地更新,且热词词表中热词的数量和类型较为丰富,可以为政务场景中的热词应用提供更有效地数据支撑。
[0029]例如,针对政务场景通过本公开实施例提供的政务场景热词挖掘方法,可以提供更丰富的热词数据,提高政务服务能力。
[0030]示例性地,该方法的执行主体可以是计算机或服务器,或者还可以是其他具有数据处理能力的设备。在此对该方法的执行主体不作限制。
[0031]一些实施例中,服务器可以是单独的一个服务器,或者,也可以是由多个服务器构成的服务器集群。部分实施方式中,服务器集群还可以是分布式集群。本公开对服务器的具体实现方式也不作限制。
[0032]下面对该政务场景热词挖掘方法进行示例性说明。
[0033]图1为本公开实施例提供的政务场景热词挖掘方法的流程示意图。如图1所示,该政务场景热词挖掘方法,可以包括:
[0034本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种政务场景热词挖掘方法,所述方法包括:获取政务场景中的工单数据包含的文本中自由度和凝固度符合预设条件的词语;在所述词语中确定词频符合预设频率要求的第一关键词;在预设语料库包含的预设词语中确定与所述第一关键词之间的相似度符合预设相似度要求的第二关键词;对所述第一关键词和所述第二关键词进行聚类,得到至少一个热词聚类结果,每个所述热词聚类结果中包括至少一个热词、且每个所述热词聚类结果中包括的热词互为同义词,所述热词为所述第一关键词或所述第二关键词;根据所述热词聚类结果,生成热词词表,所述热词词表包括所述热词以及所述热词的同义词。2.根据权利要求1所述的方法,所述方法还包括:接收用户的热词黑名单配置操作;响应于所述热词黑名单配置操作,将所述热词黑名单配置操作对应的目标热词设置添加至热词黑名单。3.根据权利要求2所述的方法,所述将所述热词黑名单配置操作对应的目标热词设置添加至热词黑名单,包括:获取所述目标热词的模式字段;在所述目标热词的模式字段中,新增目标字段;将所述目标字段的值设置为第一值。4.根据权利要求1

3任一项所述的方法,所述根据所述热词聚类结果,生成热词词表之前,所述方法还包括:通过预设的分类模型,确定所述热词的分类类别;根据所述热词的分类类别,为所述热词标注类别标签;其中,所述分类模型是采用样本热词以及所述样本热词对应的样本分类标签,对神经网络进行训练得到的。5.根据权利要求1

4任一项所述的方法,所述在预设语料库包含的预设词语中确定与所述第一关键词之间的相似度符合预设相似度要求的第二关键词之前,所述方法还包括:对所述第一关键词进行过滤,筛选掉不符合预设要求的所述第一关键词。6.根据权利要求5所述的方法,所述根据所述热词聚类结果,生成热词词表之前,所述方法还包括:对所述热词进行过滤,筛选掉不符合预设要求的所述热词。7.根据权利要求1

6任一项所述的方法,所述方法还包括:将所述热词词表和所述工单数据存储于弹性搜索数据库中,所述弹性搜索数据库与至少一个热词应用程序接口连接。8.一种政务场景热词挖掘装置,所述装置包括:获取单元,用于获取政务场景中的工单数据包含的文本中自由度和凝固度符合预设条件的词语;筛选单元,用于在所述词语中确定词频符合预设频率要求的第一关键词;召回单元,用于在预设语料库包含的预设词语中确定与所述第一关键词之间的相似度
符合预设相似度要求的第二关键词;挖掘单元,用于对所述第一关键词和所述第二关键词进行聚类,得到至少一个热词聚类结果,每个所述热词聚类结果中包括至少一个热词、且每个所述热词聚类结果中包括的热词互为同...

【专利技术属性】
技术研发人员:汪永清
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1