一种关键词抽取效果评估方法技术

技术编号:23932955 阅读:62 留言:0更新日期:2020-04-25 02:07
本发明专利技术公开的关键词抽取效果评估方法,涉及文本分析技术领域,分别对分类语料的关键词及词向量进行聚类,得到两个聚类结果,根据两个聚类结果,对关键词抽取效果进行评估,提高了关键词抽取效果评估的准确度及效率。

A method to evaluate the effect of keyword extraction

【技术实现步骤摘要】
一种关键词抽取效果评估方法
本专利技术属于文本分析
,具体涉及一种关键词抽取效果评估方法。
技术介绍
关键词抽取是从文本或文本集合中自动抽取主题性或重要性的词或短语,为了对关键词抽取的效果进行评估,现有的方案是将人工标注的关键词作为测试数据,然后通过计算准确率、召回率及F值对关键词抽取结果进行评估。但该方案存在以下缺陷:不同与分类、实体识别等任务,关键词抽取语料的标注难度要高很多,需要相关专业知识,人工标注的结果普遍存在一致性差、准确度低等问题,对得到的评估结果依旧需要人工反复检查确认才能作出最终的评估结果,导致关键词抽取效果评估的准确度及效率较低。
技术实现思路
针对现有技术存在的缺陷,本专利技术实施例提供了一种关键词抽取效果评估方法,该方法包括:随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数;利用词向量生成模型,得到所述标签文件的词向量集并从所述词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果;利用公式分别计算第一聚类结果的熵值E1及第二聚类结果的熵值E2,其中,Pj为第一聚类结果或第二聚类结果成员属于类j的概率,m为第一聚类结果或第二聚类结果成员的个数,mj为第一聚类结果或第二聚类结果成员属于类j的个数,L为第一聚类结果或第二聚类结果的类别个数;根据公式E=E2-E1,计算本次关键词抽取结果的评估值并根据所述评估值,判断本次关键词抽取效果的好坏。优选地,所述方法还包括:比较熵值E1及E2的大小,如果E1≥E2,则确定本次关键词抽取结果无效,如果E1<E2,则确定本次关键词抽取结果有效。优选地,所述第一聚类结果与第二聚类结果的类别个数相同。优选地,所述词向量生成模型为word2vec模型。优选地,所述聚类算法为K均值聚类算法。本专利技术实施例提供的关键词抽取效果评估方法具有以下有益效果:分别对分类语料的关键词及词向量进行聚类,得到两个聚类结果,根据两个聚类结果,对关键词抽取效果进行评估,提高了关键词抽取效果评估的准确度及效率。具体实施方式以下结合具体实施例对本专利技术作具体的介绍。本专利技术实施例提供的关键词抽取效果评估方法包括以下步骤:S101,随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数。作为一个具体的实施例,分类语料包括新闻类文本、学科类文本(包括科研论文)等。S102,利用词向量生成模型,得到所述标签文件的词向量集并从词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果。S103,利用公式分别计算第一聚类结果的熵值E1及第二聚类结果的熵值E2,其中,Pj为第一聚类结果或第二聚类结果成员属于类j的概率,m为第一聚类结果或第二聚类结果成员的个数,mj为第一聚类结果或第二聚类结果成员属于类j的个数,L为第一聚类结果或第二聚类结果的类别个数。以新闻类语料为例,对新闻类语料进行聚类,得到的聚类结果可分为娱乐、金融、外事、都市、国内及体育六类。S104,根据公式E=E2-E1,计算本次关键词抽取结果的评估值并根据评估值,判断本次关键词抽取效果的好坏。其中,评估值越大,说明关键词抽取效果越好。可选地,该方法还包括:比较熵值E1及E2的大小,如果E1≥E2,则确定本次关键词抽取结果无效,如果E1<E2,则确定本次关键词抽取结果有效。其中,无论抽取结果是否有效,都要计算其评估值。可选地,第一聚类结果与第二聚类结果的类别个数相同。可选地,词向量生成模型为word2vec模型。可选地,聚类算法为K均值聚类算法。本专利技术实施例提供的关键词抽取效果评估方法,分别对分类语料的关键词及词向量进行聚类,得到两个聚类结果,根据两个聚类结果,对关键词抽取效果进行评估,提高了关键词抽取效果评估的准确度及效率。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。可以理解的是,上述方法及装置中的相关特征可以相互参考。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本专利技术也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本专利技术的内容,并且上面对特定语言所做的描述是为了披露本专利技术的最佳实施方式。此外,存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示本文档来自技高网...

【技术保护点】
1.一种关键词抽取效果评估方法,其特征在于,包括:/n随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数;/n利用词向量生成模型,得到所述标签文件的词向量集并从所述词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果;/n利用公式

【技术特征摘要】
1.一种关键词抽取效果评估方法,其特征在于,包括:
随机抽取分类语料的n个关键词并利用聚类算法,对所述n个关键词进行聚类,得到第一聚类结果,其中,n为大于零的自然数;
利用词向量生成模型,得到所述标签文件的词向量集并从所述词向量集中随机抽取n个词向量,利用聚类算法,对所述n个词向量进行聚类,得到第二聚类结果;
利用公式分别计算第一聚类结果的熵值E1及第二聚类结果的熵值E2,其中,Pj为第一聚类结果或第二聚类结果成员属于类j的概率,m为第一聚类结果或第二聚类结果成员的个数,mj为第一聚类结果或第二聚类结果成员属于类j的个数,L为第一聚类结果或第二聚类结果的类别个数;
根据公式E=E2-E1,计算本次关键词抽取结果的评估值并根据所述评估值,判断本次关键词抽取效果的好坏。


2.根据权利要求1...

【专利技术属性】
技术研发人员:贾显伏张文斌曾俊瑀周建行
申请(专利权)人:云孚科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1