The invention provides an intelligent classification method for long text data based on keyword scoring. The method adopts the method of fast text classification by simulating manual work, takes the \category-keyword\ library as the judgment basis, takes the cumulative score as the quantitative comparison method, and according to multi-keywords, related keywords and important keywords. The influence sets score weights and takes the highest score as the final classification basis to realize the automatic classification of fuzzy text data.
【技术实现步骤摘要】
一种基于关键词计分的长文本数据智能分类方法
本专利技术涉及文本数据挖掘领域,更具体地,涉及一种基于关键词计分的长文本数据智能分类方法。
技术介绍
目前的文本数据分类方法,只能通过关键词存在性进行部分或全部文本的精确匹配,例如,判断一个全国事业机构名单的机构是什么行政级别的单位,可以通过名称中包含的地名的行政级别来判断,例如“广州供电局”是地市级单位,广东电网是省级单位。目前的文本数据分类方法由于使用精确匹配,无法根据文本信息的上下文关联进行较模糊的判断,对日常的文本信息难以有效判别,常常需要人工读取和判别,效率较低。例如,公共服务单位普遍提供话务服务,根据谈话内容进行话务分类的工作仍需人工进行,话务量巨大时十分消耗人力资源。
技术实现思路
本专利技术提供一种基于关键词计分的长文本数据智能分类方法,该方法根据多关键词、关联关键词、重要关键词的影响力设置得分权重,以最高得分作为最终分类依据,实现模糊文本数据的自动分类。为了达到上述技术效果,本专利技术的技术方案如下:一种基于关键词计分的长文本数据智能分类方法,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库;S3:设定每个关键词的计分规则;S4:通过MicrosoftExcel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。进一步地,所述步骤S2的具体过程是:根据客服话务记录的来电内容进行数据分类判定关键词,为每种分类总结归纳出去关键词库,形成“内容类别-关键词库”。进一步地,通过计算每条通话记录来电内容中包含的每种可能的内容类别的关键词的得分,选中得 ...
【技术保护点】
1.一种基于关键词计分的长文本数据智能分类方法,其特征在于,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库;S3:设定每个关键词的计分规则;S4:通过Microsoft Excel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。
【技术特征摘要】
1.一种基于关键词计分的长文本数据智能分类方法,其特征在于,包括以下步骤:S1:建立数据的类别列表;S2:为每种类别建立特征关键词库;S3:设定每个关键词的计分规则;S4:通过MicrosoftExcel的VBA编程功能编写对文本数据的读取、计算、输出代码;S5:设置控件作为启动代码的开关。2.根据权利要求1所述的基于关键词计分的长文本数据智能分类方法,其特征在于,所述步骤S2的具体过程是:根据客服话务记录的来电内容进行数据分类判定...
【专利技术属性】
技术研发人员:尹玉芬,杜文娟,赵晨,张惠诗,吴裕宙,谢胜祥,卢鹤挺,郑志谦,骆华,杨程,麦霭庭,
申请(专利权)人:广东电网有限责任公司,广东电网有限责任公司东莞供电局,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。