The embodiment of this application provides an information hotspot mining method and device, which includes: data cleaning and word segmentation of collected corpus information to obtain sample corpus; dependency parsing of sample corpus to extract the corresponding segmentation of presupposed syntactic components from sample corpus as feature information of sample corpus; clustering of feature information to obtain sample corpus; Multiple clustering clusters; determine the hot spot clustering clusters and their corresponding hot spot categories, and take the feature information in the hot spot clustering clusters as the representative hot spot of the corresponding hot spot categories. Therefore, the technical scheme provided in the embodiment of this application aims at the fact that the phrase material information contains less information, clustering the feature information in the phrase material, so that each clustering cluster contains a large number of feature information of the same category, so that the hot spot category can be determined according to the number of feature information in the clustering cluster and other indicators, thus solving the problem that the existing technology can not obtain a large number of phrase material information. Mining valuable hot information in the problem.
【技术实现步骤摘要】
一种信息热点挖掘方法及装置
本申请涉及自然语言处理
,尤其涉及一种信息热点挖掘方法及装置。
技术介绍
热点挖掘是自然语言处理技术的一个重要应用领域,通过热点挖掘能够从大量信息中获取有价值的热点信息,为企业制定产品计划、营销策略和确定服务重心等提供参考依据。例如,企业及时收集客户反馈的各种问题,并挖掘用户重点关注的问题,从而优化公司产品或服务。但是,随着企业业务规模的不断发展,客户数量会逐渐增多,客户反馈的问题数量也会大量的增加,处理起来耗时费力,从而导致热点挖掘变得困难。另外,企业通常通过客服系统接收用户反馈的问题,因此,信息采集的过程通常发生在客服与用户的对话中,而对话文本通常为短语料文本,并且具有以下特点:1、高纬性。对话文本的数量巨大,并且通常会涉及到许多话题,难以进行聚焦。2、稀疏性。对话文本的长度通常较短,对话内容中包含的信息量远小于新闻、博客等其他语料文本,语料特征稀疏,因此难以发现不同语料特征之间的关联,处理起来更加困难。3、不规范性。与采集自新闻、博客等其他来源的语料相比,对话文本中会更频繁地出现用词不规范和语法错误的情况,例如大量的聊天表情、网络用语和缩略语等,从而导致这类文本处理起来更加困难。由此可见,如何从大量的短语料信息(例如:客服对话文本)中挖掘出有价值的热点信息,成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种信息热点挖掘方法及装置,以解决现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。第一方面,本申请实施例提供了一种信息热点挖掘方法,该方法包括:对采集的语料信息进行数据清洗和分词处 ...
【技术保护点】
1.一种信息热点挖掘方法,其特征在于,包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对所述样本语料进行依存句法分析,以从所述样本语料抽取预设句法成分对应的分词,作为所述样本语料的特征信息;选取一个所述特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将所述目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则以所述目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。
【技术特征摘要】
1.一种信息热点挖掘方法,其特征在于,包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对所述样本语料进行依存句法分析,以从所述样本语料抽取预设句法成分对应的分词,作为所述样本语料的特征信息;选取一个所述特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将所述目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则以所述目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。2.根据权利要求1所述的方法,其特征在于,所述对样本语料进行依存句法分析,以从所述样本语料抽取预设句法成分对应的分词,作为所述样本语料的特征信息,包括:从所述样本语料中抽取每个预设句法成分对应的分词,并添加句法成分标签;根据抽取到的分词在所述样本语料中的先后顺序为每个分词添加词序信息;根据所述词序信息将抽取到的所述分词进行排序,得到所述特征信息。3.根据权利要求1所述的方法,其特征在于,所述将目标特征信息与已有的聚类簇的簇心计算相似度,包括:获取所述簇心和所述目标特征信息的文本特征向量;计算所述簇心与所述目标特征信息的文本特征向量的余弦距离或者欧式距离作为所述相似度。4.根据权利要求1所述的方法,其特征在于,所述将目标特征信息加入到相似度的最大值对应的聚类簇中之后,还包括:计算聚类簇中每个特征信息的密度;将密度最大的特征信息作为所述聚类簇新的簇心。5.根据权利要求1所述的方法,其特征在于,所述对采集的语料信息进行数据清洗和分词处理,得到样本语料,包括:去除所述语料信息中的干扰信息;使用预先获取的分词词表对所述语料信息进行分词处理,并根据预先获取的停用词表去除分词结果中的停用词。6.根据权利要求5所述的方法,其特征在于,所述使用预先获取的分词词表对所述语料信息进行分词处理,包括将所述...
【专利技术属性】
技术研发人员:何晓艺,李德彦,吴云鹤,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。