基于标题的文档聚类方法、装置、终端设备及介质制造方法及图纸

技术编号:23512793 阅读:26 留言:0更新日期:2020-03-18 00:06
本申请实施例适用于文本处理技术领域,提供了一种基于标题的文档聚类方法、装置、终端设备及介质,所述方法包括:采集多个文档,各个文档分别具有相应的文档标题;针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度;将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇;针对所述初始文档簇中的各个目标文档,分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度;根据所述第二相似度更新所述初始文档簇,得到目标文档簇,并设置所述目标文档簇的簇关键词。本实施例通过对各个文档的标题进行处理,可以将具有高度关联性的标题所对应的文档聚为一类,降低了聚类时的计算复杂度。

Document clustering method, device, terminal device and media based on title

【技术实现步骤摘要】
基于标题的文档聚类方法、装置、终端设备及介质
本申请属于文本处理
,特别是涉及一种基于标题的文档聚类方法、装置、终端设备及介质。
技术介绍
文档标题对于查找文档内容有着至关重要的作用,通过将检索关键词与标题中的各个词语进行匹配,可以查找出包含检索关键词的多份文档。以金融领域中的大量公告文档为例,对公告文档的标题的查找通常使用的是结合数据库存储的方式来进行检索。输入关键词,如“募集”、“资金”、“存放情况”、“专项报告”等,系统会在数据库中进行全部内容的检索与关键词匹配,然后输出标题中包含该关键词的文档。但是,按照上述检索方式需要检索的内容非常多,检索过程耗时较长。并且,通过对标题进行简单的关键词匹配,检索结果的准确率也较低,所获得的文档可能并非用户实际期望检索的内容。
技术实现思路
有鉴于此,本申请实施例提供了一种基于标题的文档聚类方法、装置、终端设备及介质,以解决现有技术中检索文档标题时耗时较长、准确率较低的问题。本申请实施例的第一方面提供了一种基于标题的文档聚类方法,包括:采集多个文档,各个文档分别具有相应的文档标题;针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度;将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇;针对所述初始文档簇中的各个目标文档,分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度,所述目标文档为所述初始文档簇中第一相似度大于所述第一预设阈值且小于第二预设阈值之间的文档,所述第二文档为不属于所述初始文档簇的文档;根据所述第二相似度更新所述初始文档簇,得到目标文档簇,并设置所述目标文档簇的簇关键词。本申请实施例的第二方面提供了一种基于标题的文档聚类装置,包括:文档采集模块,用于采集多个文档,各个文档分别具有相应的文档标题;第一相似度计算模块,用于针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度;初始文档簇聚类模块,用于将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇;第二相似度计算模块,用于针对所述初始文档簇中的各个目标文档,分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度,所述目标文档为所述初始文档簇中第一相似度大于所述第一预设阈值且小于第二预设阈值之间的文档,所述第二文档为不属于所述初始文档簇的文档;目标文档簇生成模块,用于根据所述第二相似度更新所述初始文档簇,得到目标文档簇,并设置所述目标文档簇的簇关键词。本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述基于标题的文档聚类方法的步骤。本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述基于标题的文档聚类方法的步骤。与现有技术相比,本申请实施例包括以下优点:本申请实施例,通过采集多个文档,并针对其中的任一文档计算出该文档的文档标题与其他各个文档的文档标题之间的第一相似度后,可以将第一相似度大于第一预设阈值的多份文档聚类为初始文档簇。然后,针对初始文档簇中的各个目标文档,再通过计算目标文档的标题与第二文档的标题之间的第二相似度,可以对初始文档簇进行更新,获得最终的目标文档簇。本实施例通过对各个文档的标题进行处理,可以将具有高度关联性的标题所对应的文档聚为一类。由于文档标题往往概括了文档的主要内容,基于文档标题来完成聚类,极大了降低了聚类时的计算复杂度,提高了聚类的准确率。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请一个实施例的一种基于标题的文档聚类方法的步骤流程示意图;图2是本申请一个实施例的另一种基于标题的文档聚类方法的步骤流程示意图;图3是本申请一个实施例的又一种基于标题的文档聚类方法的步骤流程示意图;图4是本申请一个实施例的一种基于标题的文档聚类装置的示意图;图5是本申请一个实施例的一种终端设备的示意图。具体实施方式以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。下面通过具体实施例来说明本申请的技术方案。参照图1,示出了本申请一个实施例的一种基于标题的文档聚类方法的步骤流程示意图,具体可以包括如下步骤:S101、采集多个文档,各个文档分别具有相应的文档标题;需要说明的是,本方法可以适用于终端设备。即,通过终端设备的处理,实现对各个文档的聚类。本实施例中的终端设备可以是笔记本电脑、台式计算机等设备,本实施例对终端设备的具体类型不作限定。在本实施例中,为了实现对各个文档的聚类,可以首先采集多个文档。例如,通过网页抓取特定类型的文档,该文档可以是上市公司定期或不定期发布的公告,也可以是政府部门发布的规划等等,本实施例对文档的具体类型亦不作限定。当然,对于采集到的多个文档,可以按照统一的方式对各个文档进行预处理。例如,对各个文档进行格式转换,删除文档中的冗余信息等等。S102、针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度;通常,文档的标题能够概括该文档中具体的内容。例如,对于上市公司发布的分红公告,其标题中一般就包含有“分红”这个关键词。因此,可以通过文档的标题来对各个文档进行聚类。在本实施例中,对于采集到的各个文档,可以首先计算文档标题之间的相似度。例如,可以从多个文档中随机选择一个文档,然后分别计算该文档的标题与其他文档的标题之间的相似度,即第一相似度。在具体实现中,文档标题之间的相似度可以通过计算两个标题中是否包含相同的词语,如果包含相同的词语,相同的词语在两个文档中各占的比例又是多少等方式来计算标题之间的相似度,也可以通过计算两个标题之间的编辑距离等方式来计算标题之间的相似度。本领域技术人员可以根据实际需要采用恰当的方式计算标题间的相似度,本实施例对此不作限定。S103、将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇;本实施例中的第一预设阈值可以根据实际需要确定,例如可以所以是0.6或其他数值。在计算出文档标题之间的第一相似度后,可以将第一相似度大于第一预设阈值的那些文档聚类为初始文档簇。S104、针本文档来自技高网...

【技术保护点】
1.一种基于标题的文档聚类方法,其特征在于,包括:/n采集多个文档,各个文档分别具有相应的文档标题;/n针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度;/n将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇;/n针对所述初始文档簇中的各个目标文档,分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度,所述目标文档为所述初始文档簇中第一相似度大于所述第一预设阈值且小于第二预设阈值的文档,所述第二文档为不属于所述初始文档簇的文档;/n根据所述第二相似度更新所述初始文档簇,得到目标文档簇,并设置所述目标文档簇的簇关键词。/n

【技术特征摘要】
1.一种基于标题的文档聚类方法,其特征在于,包括:
采集多个文档,各个文档分别具有相应的文档标题;
针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度;
将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇;
针对所述初始文档簇中的各个目标文档,分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度,所述目标文档为所述初始文档簇中第一相似度大于所述第一预设阈值且小于第二预设阈值的文档,所述第二文档为不属于所述初始文档簇的文档;
根据所述第二相似度更新所述初始文档簇,得到目标文档簇,并设置所述目标文档簇的簇关键词。


2.根据权利要求1所述的方法,其特征在于,所述针对任一文档,计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度,包括:
对各个文档的文档标题进行分词,统计各个文档标题中的词语个数;
针对任一文档,分别统计所述文档的文档标题与其他各个文档的文档标题中包含的相同词语的个数;
根据所述相同词语在所述各个文档标题的全部词语中的比例,逐个计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度。


3.根据权利要求2所述的方法,其特征在于,根据所述相同词语在所述各个文档标题的全部词语中的比例,采用如下公式,逐个计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度:
(k/i+k/j)/((k/i)×(k/j))
其中,i为所述文档的文档标题中的词语个数,j为待计算的另一文档的文档标题中的词语个数,k为所述文档的文档标题与所述另一文档的文档标题中包含的相同词语的个数。


4.根据权利要求1所述的方法,其特征在于,所述根据所述第二相似度更新所述初始文档簇,得到目标文档簇,包括:
若所述第二文档的文档标题与任一目标文档的文档标题之间的第二相似度均小于或等于所述第二预设阈值,则舍弃所述第二文档;
若所述第二文档的文档标题与任一目标文档的文档标题之间的第二相似度大于所述第二预设阈值,则将所述第二文档添加至所述初始文档簇;
当计算完全部第二文档的文档标题与各个目标文档的文档标题之间的第二相似度后,根据添加至所述初始文档簇的各个第二文档,得到目标文档簇。


5.根据权利要求1所述的方法,其特征在于,所述设置所述目标文档簇的簇关键词,包括:
分别统计各个词语在所述目标文档簇的全部文档标题中出现的总次数;

【专利技术属性】
技术研发人员:赵洋王宇王亚奇朱继刚
申请(专利权)人:深圳价值在线信息科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1