【技术实现步骤摘要】
用于识别民生问题类别的方法、装置及电子设备
本公开涉及计算机
,具体涉及一种用于识别民生问题类别的方法、装置、电子设备及存储介质。
技术介绍
12345政务服务热线(亦可称之为民生热线)是供人们反映生产、生活中所遇到的困难和问题的平台,也是政府部门关注民生、倾听民意的重要途径。通过对民生热线数据进行分析,可获得有价值的民生信息,例如民生问题种类、各类民生问题的数量等,进而为有针对性的进行社会治理和解决民生问题提供重要支持。相关技术中,主要通过人工标注的方式确定民生热线数据对应的民生问题类别,这种方式至少存在以下不足之处。其一,随着时间积累,民生热线数据的数量日益增加,人工标注的低效率使其无法有效处理大体量数据。其二,民生热线数据多采用自然语言描述的方式,表达方式口语化且无规则,使得人工标注难度不断增大。因此,有必要提出一种新的用于识别民生问题类别的技术方案。
技术实现思路
本公开提出了用于识别民生问题类别的方法、装置、电子设备及存储介质。第一方面,本公开提供了一种用于 ...
【技术保护点】
1.一种用于识别民生问题类别的方法,包括:/n获取待识别民生热线文本;/n基于预设民生问题类别集中的民生问题类别对应的正则表达式,对所述待识别民生热线文本进行匹配,得到对应的匹配结果;/n根据所述匹配结果,确定所述待识别民生热线文本对应的民生问题类别集。/n
【技术特征摘要】
1.一种用于识别民生问题类别的方法,包括:
获取待识别民生热线文本;
基于预设民生问题类别集中的民生问题类别对应的正则表达式,对所述待识别民生热线文本进行匹配,得到对应的匹配结果;
根据所述匹配结果,确定所述待识别民生热线文本对应的民生问题类别集。
2.根据权利要求1所述的方法,其中,对于所述民生问题类别集中的每个民生问题类别,该民生问题类别对应的正则表达式是通过如下训练步骤预先训练得到的:
获取训练样本集和验证样本集,其中,所述训练样本集和所述验证样本集中的样本包括历史民生热线文本和相应的类别标签;
根据该民生问题类别对应的正样本集生成该民生问题类别对应的候选正则表达式集,其中,所述正样本集是所述训练样本集中类别标签包括该民生问题类别的训练样本的集合;
基于所述验证样本集,从该民生问题类别对应的候选正则表达式集中确定验证准确率最高的候选正则表达式,作为该民生问题类别对应的正则表达式。
3.根据权利要求2所述的方法,其中,所述根据该民生问题类别对应的正样本集生成该民生问题类别对应的候选正则表达式集,包括:
对于该民生问题类别对应的正样本集中的每个正样本,对该正样本执行如下正则表达式生成操作:
对该正样本中的民生热线文本进行分词和词性标注处理,得到该正样本对应的候选分词序列和候选分词词性序列;
从该正样本对应的候选分词序列中提取关键分词;
根据所提取的关键分词和对应的词性,生成该正样本对应的候选正则表达式。
4.根据权利要求2所述的方法,其中,所述方法还包括:
在获取所述训练样本集之后,对所述训练样本集执行如下均衡化处理操作:
从所述训练样本集中确定该民生问题类别对应的正样本集和负样本集,其中,所述负样本集是训练样本集中类别标签不包括该民生问题类别的样本的集合;
计算该民生问题类别对应的正样本和负样本的数量比;
当所述数量比不属于预设范围时,对所述训练样本集中的样本进行调整,以使所述数量比属于所述预设范围。
5.根据权利要求1所述的方法,其中,所述根据所述匹配结果,确定所述待识别民生热线文本对应的民生问题类别集,包括:
根据每个正则表达式的匹配结果,确定所述待识别民生热线文本是否属于该正则表达式对应的民生问题类别;
用所述待识别民生热线文本所属的民生问题类别确定所述民生问题类别集。
6.根据权利要求1-5中任一项所述的方法,其中,所述获取待识别民生热线文本,包括:
获取待识别民生热线录音;
对所述待识别民生热线录音进行语音识别处理,得到所述待识别民生热线文本。
7.一种用于识别民生问题类别的装置,包括:
获取模块,被配置为获取待识别民生热线文本;
匹配模块,被配置为基于预设民生问题类别集中的民生问题类别对应的正则表达式,对...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。