聚类分析方法、聚类分析系统及聚类分析程序技术方案

技术编号:34563954 阅读:12 留言:0更新日期:2022-08-17 12:52
服务器4执行:相似度计算步骤(S2),计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤(S3),基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并以相似的文件进行聚类划分;第1指标计算步骤(S4),计算示出网络中的文件的中心性的第1指标;第2指标计算步骤(S5),计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及显示数据生成步骤(S6),关于文件,由与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。据。据。

【技术实现步骤摘要】
聚类分析方法、聚类分析系统及聚类分析程序


[0001]本专利技术涉及将多个文件按其内容分类为聚类,并生成示出文件关联的显示数据的一种聚类分析方法、聚类分析系统及聚类分析程序。

技术介绍

[0002]一直以来,在分析多篇学术论文或文献等文件时,由人来阅读文件并按内容进行分类、或制作摘要。由人进行分析不仅耗费时间,而且当多个人进行分析时,会因作业人员的经验和知识而导致分类或摘要的制作精度存在偏差的倾向。
[0003]此外,对于如学术论文等复杂且专业性高的文件,为了理解内容需要具有高度的专业知识。然而,即使是不具备这种专业知识的人,也希望容易地获得和理解最新的信息,并将其活用。
[0004]例如,已经提出了一种聚类分析方法,其中对通过概念检索而检索到的技术文献进行形态分析,并对由其得到的各单词附加权重,以将各技术文献向量化,并将向量化的朝向接近的技术文献归为一个聚类(例如,“专利文献1”。)。
[0005]通过这样的技术,虽然可以将信息分类为聚类,但没有达到理解文件间的关系或聚类间的关系等的程度。
[0006]专利文献
[0007]【专利文献1】日本专利文献特开第2005

92443号公报

技术实现思路

[0008]专利技术所要解决的问题
[0009]本专利技术的目的在于:提供一种聚类分析方法、聚类分析系统及聚类分析程序,通过将多篇文件,特别是数量庞大的文件分类成由相似文件构成的聚类,并且使其能够俯瞰文件间的关联,从而能够在更短的时间内有效率地理解多篇文件的主旨。
[0010]解决问题的手段
[0011]即,本专利技术是一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析方法,包括:相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤,基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并分类成由相似的文件构成的聚类;第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;第2指标计算步骤,计算与所述网络中的所述第1指标不同的第2指标;以及显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
[0012]此外,本专利技术是一种将多篇文件根据其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析系统,包括:相似度计算部,其计算一篇文件的内容与其他文件的
内容的相似度;聚类分类部,其基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并将相似的文件分类成聚类;第1指标计算部,其计算示出网络中的文件的中心性的第1指标;第2指标计算部,其计算与网络中的第1指标不同的、示出文件的重要性的第2指标;以及显示数据生成部,其对于文件,以与第1指标相应的节点的物件的大小的表现、与第2指标相应的物件的形状对应的形状的量规和量规的长度的表现、与聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。
[0013]另外,本专利技术是一种使计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析程序,执行以下步骤:相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤,基于计算出的相似度将文件作为节点,生成将相似的节点间以边连结的网络,并将相似的文件分类成聚类;第1指标计算步骤,计算示出网络中的文件的中心性的第1指标;
[0014]第2指标计算步骤,计算与网络中的所述第1指标不同的第2指标;以及显示数据生成步骤,对于文件,以与第1指标相应的节点的物件的大小的表现、与所述第2指标相应的物件的形状对应的形状的量规和量规的长度的表现、与聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出网络的第1显示数据。
[0015]专利技术效果
[0016]根据本专利技术,通过将多篇文件,特别是数量庞大的文件分类成由相似文件构成的聚类,并且使其能够俯瞰文件间的关联,从而能够在更短的时间内有效率地理解多篇文件(特别是数量庞大的文件)的主旨。
附图说明
[0017]图1是本专利技术一实施方式的聚类分析系统的整体构成图。
[0018]图2是在信息终端的输出部显示的聚类分析结果的显示例。
[0019]图3是第1显示数据的说明图。
[0020]图4是示出本专利技术一实施方式中在聚类分析系统的服务器执行的聚类分析控制例程的流程图。
[0021]图5是示出本专利技术一实施方式中在聚类分析系统的服务器执行的聚类分析控制例程的流程图。
具体实施方式
[0022]以下,基于附图对本专利技术一实施方式进行说明。
[0023]图1是示出本专利技术一实施方式的聚类分析系统的整体构成图,基于同一图对本实施方式的构成进行说明。
[0024]如图1所示,本实施方式的聚类分析系统1中,文件数据库2(以下将数据库标记为“DB”)、信息终端3以及服务器4通过通信网N连接。通信网N是,例如互联网、内联网、VPN(Virtual Private Network)等,使用有线或无线的通信手段,可以双向传递信息的通信网。此外,在图1中,为了简化说明,一个文件DB2和一个信息终端3只与一台服务器4连接,但是一台服务器4可以与多个文献DB和多个信息终端3连接。
[0025]文件DB2是,例如存储有学术论文、专利文献、杂志、书籍、新闻报道等文件的信息的数据库,并向限定人士或非限定人士公开所存储的文件。在本实施方式中,以存储有医学文献的信息的文件DB为例,对文件DB2进行说明。然而,对本专利技术的文件DB中可存储的文件的内容、领域以及种类没有限制。本实施方式中,医学文献的信息包括,作者名和出版年、作者的所属机构等书目性事项,论文的题目、主旨及正文等论文的内容性事项,引用/被引用的件数、文献名等引用/被引用信息,以及文献刊登的学会名、杂志名、或出版社名等的刊登信息。
[0026]在本说明书中,“文件”(a document)由“文章”(sentences)构成,“文章”由两个以上的“句子”(a sentence)构成,而“句子”由两个以上的“单词”(a word)构成。在本说明书中,“主旨”(abstract)是预先配置于一个文件的开头或末尾,以表现该文件的概要或特征的文章。在本说明书,“摘要”或“摘要句”(都为summary)是从某对象提取的,表现该对象的概要或特征的一个以上的句子。在此,对象可以是文章、文件、或聚类。
[0027]此外,文件DB2也可以是通过通信网N可访问的网络上的网站,文件存储部20还能够获得记载于可访问网站的文本作为文件。
[0028]将网站作为文件获得时,可以以规定的件数作为上限,获得网页搜索引擎的搜索结果。例如,可以对规定的搜索查询,获得前500件的网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算机将多篇文件按其内容分类成聚类,并生成示出文件间的关联的显示数据的聚类分析方法,其特征在于,包括:相似度计算步骤,计算一篇文件的内容与其他文件的内容的相似度;聚类分类步骤,基于计算出的相似度将文件或聚类作为节点,生成将相似的节点间以边连结的网络,并分类成由相似的文件构成的聚类;第1指标计算步骤,计算示出所述网络中的文件的中心性的第1指标;第2指标计算步骤,计算与所述网络中的所述第1指标不同的、示出文件的重要性的第2指标;以及显示数据生成步骤,对于文件,以与所述第1指标相应的节点的物件的大小的表现、与所述第2指标相应的所述物件的形状对应的形状的量规和所述量规的长度的表现、与所述聚类的种类相应的表现、以及与文件间的相似度的大小相应的表现,生成示出所述网络的第1显示数据。2.根据权利要求1所述的聚类分析方法,其中,在所述显示数据生成步骤中生成显示数据,该显示数据以圆表现所述第1指标的物件,并以与所述第1指标的圆同心的圆弧、及所述圆弧的长度表现所述第2指标的量规。3.根据权利要求1或2所述的聚类分析方法,其中,所述文件具有题目、主旨及正文中的至少一个作为其构成元素,所述显示数据生成步骤,进一步地,提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成以与该出现频率相应的大小显示该单词的第2显示数据。4.根据权利要求1至3中任一项所述的聚类分析方法,其中,所述文件具有题目、主旨及正文中的至少一个作为其构成要素,所述显示数据生成步骤,进一步地,提取属于一个聚类的文件的题目、主旨及正文中的至少一个所包含的出现频率高的单词,并生成根据该出现频率按顺序显示该单词的第3显示数据。5.根据权利要求1至4中任一项所述的聚类分析方法,其中,所述文件是刊登在学术杂志的文件,所述第2指标是根据所述文件的引用而计算的。6.根据权利要求1至4中任一项所述的聚类分析方法,其中,所述文件,是通过网页搜索以规定的件数作为上限而获得的网站上记载的文件。7.根据权利要求6所述的聚类分析方法,其中,所述第2指标,是根据对所述网站的访问数而计算的。8.根据权利要求6或7所述的聚类分析方法,其中,提取所述文件包含的出现频率高的单词,并生成以该出现频率相应的大小显示该单词的第2显示数据。9.根据权利要求6至8中任一项所述的聚类分析方法,其中,提取所述文件包含的出现频率高的单词,并生成根据该出现频率按顺序显示该单词的第3显示数据。10.根据权利要求1至9中任一项所述的聚类分析方法,进...

【专利技术属性】
技术研发人员:山崎邦利细谷龍一
申请(专利权)人:爱酷赛股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1