基于标题的文档聚类方法、装置、终端设备及介质制造方法及图纸

技术编号：23512793 阅读：35 留言：0更新日期：2020-03-18 00:06

本申请实施例适用于文本处理技术领域，提供了一种基于标题的文档聚类方法、装置、终端设备及介质，所述方法包括：采集多个文档，各个文档分别具有相应的文档标题；针对任一文档，计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度；将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇；针对所述初始文档簇中的各个目标文档，分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度；根据所述第二相似度更新所述初始文档簇，得到目标文档簇，并设置所述目标文档簇的簇关键词。本实施例通过对各个文档的标题进行处理，可以将具有高度关联性的标题所对应的文档聚为一类，降低了聚类时的计算复杂度。

Document clustering method, device, terminal device and media based on title

全部详细技术资料下载

【技术实现步骤摘要】
基于标题的文档聚类方法、装置、终端设备及介质
本申请属于文本处理
，特别是涉及一种基于标题的文档聚类方法、装置、终端设备及介质。
技术介绍
文档标题对于查找文档内容有着至关重要的作用，通过将检索关键词与标题中的各个词语进行匹配，可以查找出包含检索关键词的多份文档。以金融领域中的大量公告文档为例，对公告文档的标题的查找通常使用的是结合数据库存储的方式来进行检索。输入关键词，如“募集”、“资金”、“存放情况”、“专项报告”等，系统会在数据库中进行全部内容的检索与关键词匹配，然后输出标题中包含该关键词的文档。但是，按照上述检索方式需要检索的内容非常多，检索过程耗时较长。并且，通过对标题进行简单的关键词匹配，检索结果的准确率也较低，所获得的文档可能并非用户实际期望检索的内容。
技术实现思路
有鉴于此，本申请实施例提供了一种基于标题的文档聚类方法、装置、终端设备及介质，以解决现有技术中检索文档标题时耗时较长、准确率较低的问题。本申请实施例的第一方面提供了一种基于标题的文档聚类方法，包括：>采集多个文档，各个本文档来自技高网...

【技术保护点】
1.一种基于标题的文档聚类方法，其特征在于，包括：/n采集多个文档，各个文档分别具有相应的文档标题；/n针对任一文档，计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度；/n将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇；/n针对所述初始文档簇中的各个目标文档，分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度，所述目标文档为所述初始文档簇中第一相似度大于所述第一预设阈值且小于第二预设阈值的文档，所述第二文档为不属于所述初始文档簇的文档；/n根据所述第二相似度更新所述初始文档簇，得到目标文档簇，并设置所述目标文档簇的簇关键词。/n

【技术特征摘要】
1.一种基于标题的文档聚类方法，其特征在于，包括：
采集多个文档，各个文档分别具有相应的文档标题；
针对任一文档，计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度；
将所述第一相似度大于第一预设阈值的多份文档聚类为初始文档簇；
针对所述初始文档簇中的各个目标文档，分别计算所述目标文档的文档标题与多个第二文档的文档标题之间的第二相似度，所述目标文档为所述初始文档簇中第一相似度大于所述第一预设阈值且小于第二预设阈值的文档，所述第二文档为不属于所述初始文档簇的文档；
根据所述第二相似度更新所述初始文档簇，得到目标文档簇，并设置所述目标文档簇的簇关键词。

2.根据权利要求1所述的方法，其特征在于，所述针对任一文档，计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度，包括：
对各个文档的文档标题进行分词，统计各个文档标题中的词语个数；
针对任一文档，分别统计所述文档的文档标题与其他各个文档的文档标题中包含的相同词语的个数；
根据所述相同词语在所述各个文档标题的全部词语中的比例，逐个计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度。

3.根据权利要求2所述的方法，其特征在于，根据所述相同词语在所述各个文档标题的全部词语中的比例，采用如下公式，逐个计算所述文档的文档标题与其他各个文档的文档标题之间的第一相似度：
(k/i+k/j)/((k/i)×(k/j))
其中，i为所述文档的文档标题中的词语个数，j为待计算的另一文档的文档标题中的词语个数，k为所述文档的文档标题与所述另一文档的文档标题中包含的相同词语的个数。

4.根据权利要求1所述的方法，其特征在于，所述根据所述第二相似度更新所述初始文档簇，得到目标文档簇，包括：
若所述第二文档的文档标题与任一目标文档的文档标题之间的第二相似度均小于或等于所述第二预设阈值，则舍弃所述第二文档；
若所述第二文档的文档标题与任一目标文档的文档标题之间的第二相似度大于所述第二预设阈值，则将所述第二文档添加至所述初始文档簇；
当计算完全部第二文档的文档标题与各个目标文档的文档标题之间的第二相似度后，根据添加至所述初始文档簇的各个第二文档，得到目标文档簇。

5.根据权利要求1所述的方法，其特征在于，所述设置所述目标文档簇的簇关键词，包括：
分别统计各个词语在所述目标文档簇的全部文档标题中出现的总次数；

【专利技术属性】
技术研发人员：赵洋，王宇，王亚奇，朱继刚，
申请(专利权)人：深圳价值在线信息科技股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人