一种信息热点挖掘方法及装置制造方法及图纸

技术编号:20622579 阅读:30 留言:0更新日期:2019-03-20 14:26
本申请实施例提供了一种信息热点挖掘方法及装置,其中,该方法包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;将特征信息进行聚类得到多个聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由此,本申请实施例提供的技术方案,针对短语料信息包含信息量少的特点,将短语料中的特征信息进行聚类,使每个聚类簇包含大量同一类别的特征信息,从而,可以根据聚类簇中特征信息的数量等指标确定热点类别,解决了现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。

An Information Hotspot Mining Method and Device

The embodiment of this application provides an information hotspot mining method and device, which includes: data cleaning and word segmentation of collected corpus information to obtain sample corpus; dependency parsing of sample corpus to extract the corresponding segmentation of presupposed syntactic components from sample corpus as feature information of sample corpus; clustering of feature information to obtain sample corpus; Multiple clustering clusters; determine the hot spot clustering clusters and their corresponding hot spot categories, and take the feature information in the hot spot clustering clusters as the representative hot spot of the corresponding hot spot categories. Therefore, the technical scheme provided in the embodiment of this application aims at the fact that the phrase material information contains less information, clustering the feature information in the phrase material, so that each clustering cluster contains a large number of feature information of the same category, so that the hot spot category can be determined according to the number of feature information in the clustering cluster and other indicators, thus solving the problem that the existing technology can not obtain a large number of phrase material information. Mining valuable hot information in the problem.

【技术实现步骤摘要】
一种信息热点挖掘方法及装置
本申请涉及自然语言处理
,尤其涉及一种信息热点挖掘方法及装置。
技术介绍
热点挖掘是自然语言处理技术的一个重要应用领域,通过热点挖掘能够从大量信息中获取有价值的热点信息,为企业制定产品计划、营销策略和确定服务重心等提供参考依据。例如,企业及时收集客户反馈的各种问题,并挖掘用户重点关注的问题,从而优化公司产品或服务。但是,随着企业业务规模的不断发展,客户数量会逐渐增多,客户反馈的问题数量也会大量的增加,处理起来耗时费力,从而导致热点挖掘变得困难。另外,企业通常通过客服系统接收用户反馈的问题,因此,信息采集的过程通常发生在客服与用户的对话中,而对话文本通常为短语料文本,并且具有以下特点:1、高纬性。对话文本的数量巨大,并且通常会涉及到许多话题,难以进行聚焦。2、稀疏性。对话文本的长度通常较短,对话内容中包含的信息量远小于新闻、博客等其他语料文本,语料特征稀疏,因此难以发现不同语料特征之间的关联,处理起来更加困难。3、不规范性。与采集自新闻、博客等其他来源的语料相比,对话文本中会更频繁地出现用词不规范和语法错误的情况,例如大量的聊天表情、网络用语和缩略语等,从而导致这类文本处理起来更加困难。由此可见,如何从大量的短语料信息(例如:客服对话文本)中挖掘出有价值的热点信息,成为本领域技术人员亟待解决的技术问题。
技术实现思路
本申请实施例提供了一种信息热点挖掘方法及装置,以解决现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。第一方面,本申请实施例提供了一种信息热点挖掘方法,该方法包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。第二方面,本申请实施例提供了一种信息热点挖掘装置,该装置包括:预处理模块,用于对采集的语料信息进行数据清洗和分词处理,得到样本语料;分析模块,用于对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;聚类模块,用于选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;后处理模块,用于确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由以上技术方案可知,本申请实施例提供了一种信息热点挖掘方法及装置,能够对采集的语料信息进行数据清洗和分词处理,得到样本语料;对样本语料进行依存句法分析,以从样本语料抽取预设句法成分对应的分词,作为样本语料的特征信息;选取一个特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。由此,本申请实施例提供的方法,针对短语料信息包含信息量少的特点,将短语料中的特征信息进行聚类,使每个聚类簇包含大量同一类别的特征信息,从而,可以根据聚类簇中特征信息的数量等指标确定热点类别,解决了现有技术中无法从大量的短语料信息中挖掘出有价值的热点信息的问题。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本申请实施例提供的一种信息热点挖掘方法的流程图;图2为本申请实施例示出的生成聚类簇的示意图;图3为本申请实施例提供的一种信息热点挖掘方法步骤S120的流程图;图4为本申请实施例提供的一种相似度计算方法的流程图;图5为本申请实施例提供的一种簇心更新方法的流程图;图6为本申请实施例提供的一种语料信息分词方法的流程图;图7为本申请实施例提供的一种信息热点挖掘方法步骤S140的流程图;图8为本申请实施例提供的一种语料信息采集方法的流程图;图9是本申请实施例提供的一种信息热点挖掘装置的示意图。具体实施方式为了使本
的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。热点挖掘是自然语言处理技术的一个重要应用领域。热点挖掘的主要任务是对一定时间范围内产生的海量语料(例如:文本、语音和图像等)进行分析,并从分析结果中归纳该时间范围内产生的热点信息。现有技术中,热点挖掘主要分为基于监督学习的挖掘方式和基于无监督学习的挖掘方式,其中,基于监督学习的挖掘方式通过大量的标注数据对机器学习模型进行挖掘模式的训练,从而使机器学习模型具备从语料中挖掘热点的能力,那么,如果要提高机器学习模型的热点挖掘能力,就必须标注大量的语料,当语料是格式不规整的非结构化语料时,获取标注数据就要付出很大的代价,因此,无需使用标注数据的无监督学习的挖掘方法就更具有研究价值。在企业的生产经营活动中,挖掘和分析领域内的热点信息,能够为企业制定投资战略、把控产品方向、制定营销策略、确定服务重心和规避市场风险等提供参考依据。由于企业提供各类产品和服务的目标是它们的用户,因此用户的反映出的问题和需求通常对企业的发展至关重要,企业可以及时收集客户反馈的各种问题,并挖掘用户重点关注的问题,从而优化公司产品或服务。但是,随着企业业务规模的不断发展,客户数量会逐渐增多,客户反馈的问题数量也会大量的增加,处理起来耗时费力,从而导致热点挖掘变得困难。客服系统是企业获取用户反馈的一个重要渠道,客服系统采集用户反馈信息的过程通常发生在客服与用户的对话中,而客服与用户之间产生的对话文本通常为短语料文本,并且具有以下特点:1、高纬性。对话文本的数量巨大,并且通常会涉及到许多话题,难以进行聚焦。2、稀疏性。对话文本的长度通常较短,对话内容中包含的信息量远小于新闻、博客等其他语料文本,语料特征稀疏,因此难以发现不同语料特征之间的关联,处理起来更加困难。3、不规范性。与采集自新闻、博客等其他来源的语料相比,对话文本中会更频繁地出现用词不规范和语法错误的情况,例如大量的聊天表情、网络用语和缩略语等,从而导致这类文本处理起来更加困难。由此可见,本文档来自技高网
...

【技术保护点】
1.一种信息热点挖掘方法,其特征在于,包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对所述样本语料进行依存句法分析,以从所述样本语料抽取预设句法成分对应的分词,作为所述样本语料的特征信息;选取一个所述特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将所述目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则以所述目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。

【技术特征摘要】
1.一种信息热点挖掘方法,其特征在于,包括:对采集的语料信息进行数据清洗和分词处理,得到样本语料;对所述样本语料进行依存句法分析,以从所述样本语料抽取预设句法成分对应的分词,作为所述样本语料的特征信息;选取一个所述特征信息作为簇心创建第一个聚类簇,并依次选取其余的特征信息作为目标特征信息与每个聚类簇的簇心计算相似度,如果计算得到的相似度的最大值大于预设阈值,则将所述目标特征信息加入到相似度的最大值对应的聚类簇中,如果计算得到的相似度的最大值小于预设阈值,则以所述目标特征信息作为簇心创建新的聚类簇;确定热点聚类簇及其对应的热点类别,并将热点聚类簇中的特征信息作为对应热点类别的代表热点。2.根据权利要求1所述的方法,其特征在于,所述对样本语料进行依存句法分析,以从所述样本语料抽取预设句法成分对应的分词,作为所述样本语料的特征信息,包括:从所述样本语料中抽取每个预设句法成分对应的分词,并添加句法成分标签;根据抽取到的分词在所述样本语料中的先后顺序为每个分词添加词序信息;根据所述词序信息将抽取到的所述分词进行排序,得到所述特征信息。3.根据权利要求1所述的方法,其特征在于,所述将目标特征信息与已有的聚类簇的簇心计算相似度,包括:获取所述簇心和所述目标特征信息的文本特征向量;计算所述簇心与所述目标特征信息的文本特征向量的余弦距离或者欧式距离作为所述相似度。4.根据权利要求1所述的方法,其特征在于,所述将目标特征信息加入到相似度的最大值对应的聚类簇中之后,还包括:计算聚类簇中每个特征信息的密度;将密度最大的特征信息作为所述聚类簇新的簇心。5.根据权利要求1所述的方法,其特征在于,所述对采集的语料信息进行数据清洗和分词处理,得到样本语料,包括:去除所述语料信息中的干扰信息;使用预先获取的分词词表对所述语料信息进行分词处理,并根据预先获取的停用词表去除分词结果中的停用词。6.根据权利要求5所述的方法,其特征在于,所述使用预先获取的分词词表对所述语料信息进行分词处理,包括将所述...

【专利技术属性】
技术研发人员:何晓艺李德彦吴云鹤
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1