System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及政务数据处理,具体的说是一种通过组合主题实现事项标准化的方法及系统。
技术介绍
1、针对大量的12345工单事件,或其他来源的事件,其中会有一些同一类型的相似事件,或不同人员提交的同一事件。工作人员在处理这些事件时,依靠人工分拨处理,会有大量重复性的工作,效率不高。并且很难分辨事件的职责单位,造成驳回、反复分拨等时间浪费行为。而且民生事件往往需要多部门协作处理,交叉分工的“软性”壁垒,容易职责不清,以及在多部门间推诿。无法精准、及时、高效的处理。
技术实现思路
1、本专利技术针对现有人工分拨困难、不准确的问题,提供一种通过组合主题实现事项标准化的方法及系统,以借助自然语言处理技术从复杂、多样的工单事件中抽取主题,并匹配标准化事项。
2、第一方面,本专利技术提供一种通过组合主题实现事项标准化的方法,解决上述技术问题采用的技术方案如下:
3、一种通过组合主题实现事项标准化的方法,该方法包括构建基础模型和构建标准化事项两部分;
4、(一)在构建基础模型部分:
5、首先建立语料库,用于存储语料;
6、随后对语料进行分词,对分词结果进行机器学习,生成词向量模型,并进一步生成专题词向量库文件;
7、(二)在构建标准化事项部分:
8、首先导入历史工单,对历史工单的内容逐条进行分词,
9、随后根据分词结果的词性甄别出治理对象和异常行为,使用专题词向量库文件分别获取治理对象和异常行为的相似词
10、最后对每条工单形成的结果进行整合和过滤,经人工筛选和合并后,将治理对象和异常行为形成的结果集组合为一个主题,形成标准化事项。
11、可选的,在构建基础模型部分:
12、通过网络或工单进行语料搜集,将搜集的语料存储到语料库中;
13、同时,通过工单,对指定地区的俗语、方言以及专业名词进行搜集,形成自定义词库。
14、进一步可选的,在构建基础模型部分:
15、制作停用词典,停用词典包含特殊符号和功能词;
16、使用停用词典对语料进行清洗,对清洗后的语料使用自定义词库进行分词。
17、进一步可选的,在构建基础模型部分,通过网络或新工单进行语料搜集,对搜集的语料进行分词后,再次对分词结果进行机器学习,实现词向量模型的更新,并进一步增加专题词向量库文件的词库数据。
18、可选的,分词结果的词性包括名词和动词;
19、名词包含人、事、物、地点,名词对应事项中的主体,即治理对象;
20、动词包含人或事物的动作或状态,动词对应事项中的主体的行为,即异常行为。
21、第二方面,本专利技术提供一种通过组合主题实现事项标准化的系统,解决上述技术问题采用的技术方案如下:
22、一种通过组合主题实现事项标准化的系统,其包括:
23、构建模块,用于构建语料库和自定义词库;
24、搜集模块,用于根据搜索条件搜集语料或词语,并将搜索的语料存储于语料库,将搜索的词语存储于自定义词库;
25、分词模块,用于根据自定义词库对语料进行分词;
26、学习模块,用于对分词模块的分词结果进行机器学习,生成词向量模型,并进一步生成专题词向量库文件;
27、导入分词模块,用于导入历史工单,并对历史工单的内容逐条进行分词;
28、甄别处理模块,用于根据导入分词模块的分词结果的词性甄别出治理对象和异常行为,并使用专题词向量库文件分别获取治理对象和异常行为的相似词;
29、整合过滤模块,用于对每条工单形成的结果进行整合和重复数据的过滤;
30、事项标准化模块,在人工筛选和合并整合过滤模块的过滤结果后,用于将治理对象和异常行为形成的结果集组合为一个主题,形成标准化事项。
31、可选的,所涉及搜集模块根据“语料”搜索条件从网络或工单中搜集语料,
32、搜集模块根据“词语”搜索条件从工单中对指定地区的俗语、方言以及专业名词进行搜集。
33、可选的,所涉及构建模块还用于构建停用词典,停用词典包含特殊符号和功能词;
34、分词模块首先使用停用词典对语料进行清洗,随后使用自定义词库对语料进行分词。
35、进一步可选的,所涉及系统还包括模型更新模块;
36、搜集模块根据“语料”搜索条件从网络或新工单中搜集语料并进行分词后,模型更新模块再次对分词结果进行机器学习,实现词向量模型的更新,并进一步增加专题词向量库文件的词库数据。
37、可选的,所涉及导入分词模块的分词结果的词性包括名词和动词,其中:
38、名词包含人、事、物、地点,名词对应事项中的主体,即治理对象;
39、动词包含人或事物的动作或状态,动词对应事项中的主体的行为,即异常行为。
40、本专利技术的一种通过组合主题实现事项标准化的方法及系统,与现有技术相比具有的有益效果是:
41、本专利技术针对大量历史工单事件,通过自然语言处理技术进行机器学习,抽取治理对象和异常行为组合成一个主题,并形成标准化事项,解决了人工甄别、分拨的弊端,方便对应部门精准、及时、高效的处理工单事件。
本文档来自技高网...【技术保护点】
1.一种通过组合主题实现事项标准化的方法,其特征在于,该方法包括构建基础模型和构建标准化事项两部分;
2.根据权利要求1所述的一种通过组合主题实现事项标准化的方法,其特征在于,在构建基础模型部分:
3.根据权利要求2所述的一种通过组合主题实现事项标准化的方法,其特征在于,在构建基础模型部分:
4.根据权利要求3所述的一种通过组合主题实现事项标准化的方法,其特征在于,在构建基础模型部分,通过网络或新工单进行语料搜集,对搜集的语料进行分词后,再次对分词结果进行机器学习,实现词向量模型的更新,并进一步增加专题词向量库文件的词库数据。
5.根据权利要求1所述的一种通过组合主题实现事项标准化的方法,其特征在于,分词结果的词性包括名词和动词;
6.一种通过组合主题实现事项标准化的系统,其特征在于,其包括:
7.根据权利要求6所述的一种通过组合主题实现事项标准化的系统,其特征在于,所述搜集模块根据“语料”搜索条件从网络或工单中搜集语料,
8.根据权利要求7所述的一种通过组合主题实现事项标准化的系统,其特征在于,
9.根据权利要求8所述的一种通过组合主题实现事项标准化的系统,其特征在于,所述系统还包括模型更新模块;
10.根据权利要求6所述的一种通过组合主题实现事项标准化的系统,其特征在于,所述导入分词模块的分词结果的词性包括名词和动词,其中:
...【技术特征摘要】
1.一种通过组合主题实现事项标准化的方法,其特征在于,该方法包括构建基础模型和构建标准化事项两部分;
2.根据权利要求1所述的一种通过组合主题实现事项标准化的方法,其特征在于,在构建基础模型部分:
3.根据权利要求2所述的一种通过组合主题实现事项标准化的方法,其特征在于,在构建基础模型部分:
4.根据权利要求3所述的一种通过组合主题实现事项标准化的方法,其特征在于,在构建基础模型部分,通过网络或新工单进行语料搜集,对搜集的语料进行分词后,再次对分词结果进行机器学习,实现词向量模型的更新,并进一步增加专题词向量库文件的词库数据。
5.根据权利要求1所述的一种通过组合主题实现事项标准化的方法,其特征在于,分词...
【专利技术属性】
技术研发人员:宋绍磊,于晓晨,迟钰沛,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。