一种基于关键词计分的长文本数据智能分类方法技术

技术编号:19177621 阅读:36 留言:0更新日期:2018-10-17 00:25
本发明专利技术提供一种基于关键词计分的长文本数据智能分类方法,该方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。

An intelligent classification method for long text data based on keyword scoring

The invention provides an intelligent classification method for long text data based on keyword scoring. The method adopts the method of fast text classification by simulating manual work, takes the \category-keyword\ library as the judgment basis, takes the cumulative score as the quantitative comparison method, and according to multi-keywords, related keywords and important keywords. The influence sets score weights and takes the highest score as the final classification basis to realize the automatic classification of fuzzy text data.

【技术实现步骤摘要】
一种基于关键词计分的长文本数据智能分类方法
本专利技术涉及文本数据挖掘领域,更具体地,涉及一种基于关键词计分的长文本数据智能分类方法。
技术介绍
目前的文本数据分类方法,只能通过关键词存在性进行部分或全部文本的精确匹配,例如,判断一个全国事业机构名单的机构是什么行政级别的单位,可以通过名称中包含的地名的行政级别来判断,例如“广州供电局”是地市级单位,广东电网是省级单位。目前的文本数据分类方法由于使用精确匹配,无法根据文本信息的上下文关联进行较模糊的判断,对日常的文本信息难以有效判别,常常需要人工读取和判别,效率较低。例如,公共服务单位普遍提供话务服务,根据谈话内容进行话务分类的工作仍需人工进行,话务量巨大时十分消耗人力资源。
技术实现思路
本专利技术提供一种基于关键词计分的长文本数据智能分类方法,该方法根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。为了达到上述技术效果,本专利技术的技术方案如下:一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库;S3:设定每个关键词的计分规则;S4:通过MicrosoftExcel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。进一步地,所述步骤S2的具体过程是:根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。进一步地,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。附图说明图1为本专利技术方法的流程图。具体实施方式附图仅用于示例性说明,不能理解为对本专利的限制;为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。下面结合附图和实施例对本专利技术的技术方案做进一步的说明。实施例1如图1所示,一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库特征关键词库;S3:设定每个关键词的计分规则;S4:通过MicrosoftExcel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。进一步地,所述步骤S2的具体过程是:根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得分中最高的一个内容类别,确定为该记录的内容类别。进一步地,将该记录输出到指定的位置,并添加计算出的“内容类别”字段信息,清除计算时调取的记录信息。与现有技术相比,本专利技术技术方案的有益效果是:本专利技术方法通过模拟人工快速进行文本分类的方法,以“类别——关键词”库作为判断依据,以累计得分作为量化比较方法,根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。相同或相似的标号对应相同或相似的部件;附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;显然,本专利技术的上述实施例仅仅是为清楚地说明本专利技术所作的举例,而并非是对本专利技术的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本专利技术的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本专利技术权利要求的保护范围之内。本文档来自技高网...

【技术保护点】
1.一种基于关键词计分的长文本数据智能分类方法,其特征在于,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库;S3:设定每个关键词的计分规则;S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。

【技术特征摘要】
1.一种基于关键词计分的长文本数据智能分类方法,其特征在于,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库;S3:设定每个关键词的计分规则;S4:通过MicrosoftExcel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。2.根据权利要求1所述的基于关键词计分的长文本数据智能分类方法,其特征在于,所述步骤S2的具体过程是:根据客服话务记录的来电内容进行数据分类判定...

【专利技术属性】
技术研发人员:尹玉芬杜文娟赵晨张惠诗吴裕宙谢胜祥卢鹤挺郑志谦骆华杨程麦霭庭
申请(专利权)人:广东电网有限责任公司广东电网有限责任公司东莞供电局
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1