知识组织系统的构建方法、装置及服务器制造方法及图纸

技术编号:17248678 阅读:47 留言:0更新日期:2018-02-11 06:54
本发明专利技术提供了知识组织系统的构建方法、装置及服务器。该方法包括:获取目标领域相关的多个原始文件;对多个原始文件进行聚类以生成第一类簇集合;根据目标领域对应的预置词列表和词关系列表,对第一类簇集合中各个类簇进行筛选,以生成包括与目标领域相关联的类簇的第二类簇集合;依据第二类簇集合来更新预置词列表和词关系列表。相比于现有技术中知识组织系统的构建方法,本发明专利技术实施例无须调用大量的人力对数量庞大的目标领域中的原始文件进行分类、筛选,以及对目标领域中预置词列表和词关系列表进行更新,大大节约了资源,同时提高了构建知识组织系统的效率;并且减少了由于人为因素导致的失误,使得构建的知识组织系统更加的准确。

【技术实现步骤摘要】
知识组织系统的构建方法、装置及服务器
本专利技术涉及计算机
,具体而言,本专利技术涉及知识组织系统的构建方法、装置及服务器。
技术介绍
知识组织系统(KnowledgeOrganizationSystem,KOS)是一种可以被计算机所理解、读取和识别的系统,该系统主要包括:叙述词、主题词等各种词表,是目前检索系统的基础设施。现有技术在构建知识组织系统时,为了使得构建的知识组织系统更加准确,大部分的工作需要人工参与,例如,当收集到某个领域的大量词语(例如,关键词、主题词等)时,需要人工(例如,该领域的技术人员)对这些词语进行分类、关联等。并且随着信息的不断扩充,需要大量的人力不时地对知识组织系统进行更新,例如,知识组织系统中各种词表的更新,这部分工作也主要依靠人工审核、筛选等将合适的词语添加到相应的词表中。由上述现有的构建知识组织系统的方法可知:在构建知识组织系统时,需要大量的人力对知识系统进行更新和维护,因此,在实际应用中,为了节约资源,相关部门通常不会设置较短的周期对知识系统进行更新和维护,给使用该知识组织系统的用户带来不便,例如,用户可能无法及时地检索到相关资料。另外,这种主要依靠人工构建知识组织系统的方法,由于工作量较大,难免会出现人为失误,从而导致构建的知识组织系统不准确的问题。
技术实现思路
鉴于上述缺点,本专利技术提供了知识组织系统的构建方法、装置及服务器,在构建知识组织系统的过程中,减少用户的工作量,相比于现有技术中构建知识知识系统的方法,本专利技术提供的构建方法更加的自动化,提高了构建知识组织系统的效率。本专利技术实施例提供了一种知识组织系统的构建方法,包括:获取目标领域相关的多个原始文件;对多个原始文件进行聚类以生成第一类簇集合;根据目标领域对应的预置词列表和词关系列表,对第一类簇集合中各个类簇进行筛选,以生成包括与目标领域相关联的类簇的第二类簇集合;依据第二类簇集合来更新预置词列表和词关系列表。优选地,根据目标领域对应的预置词列表和词关系列表,对第一类簇集合中各个类簇进行筛选,以生成包括与目标领域相关联的类簇的第二类簇集合的步骤,包括:根据预置词列表和词关系列表,确定预置词列表和词关系列表包含的词语在第一类簇集合中各个类簇中出现的次数;根据确定出的次数,从第一类簇集合中筛选出与目标领域相关联的类簇以生成第二类簇集合。优选地,依据第二类簇集合来更新预置词列表的步骤,包括:确定预置词列表所包含的词语与第二类簇集合中的各个类簇所包含的词语之间的相似度;依据第二类簇集合中确定出的相似度小于预定阈值的词语来更新预置词列表。优选地,依据第二类簇集合来更新预置词关系列表的步骤,包括:从第二类簇集合中的各个原始文件中提取目标词语;依据任一目标词语的上下文信息,确定该目标词语的关系向量;根据确定出的关系向量,计算第二类簇集合中的任意两个目标词语的相似度;根据任意两个目标词语的相似度与预定的相似度区间的关系,确定该任意两个目标词语的词关系,并根据词关系更新预置词关系列表。优选地,生成包括与目标领域相关联的类簇的第二类簇集合的步骤之后,还包括:从第二类簇集合中的各个原始文件中提取符合预设词性和/或词长的词语;对符合预设词性和/或词长的词语去重,并依据去重后的词语生成目标领域的术语集合;其中,依据第二类簇集合来更新预置词列表,包括:依据目标领域的术语集合来更新预置词列表。优选地,该构建方法还包括:根据目标领域的术语集合,确定第二类簇集合中的各个原始文件的标引度;根据确定出的标引度,确定第二类簇集合中的各个原始文件是否达标;其中,依据第二类簇集合来更新预置词关系列表:依据第二类簇集合中达标的原始文件来更新目标领域对应的预置词关系列表。优选地,根据术语集合,确定第二类簇集合中的各个原始文件的标引度的步骤之前,还包括:提取第二类簇集合中的各个原始文件包含的目标词语;其中,根据术语集合,确定第二类簇集合中的各个原始文件的标引度的步骤,包括:根据术语集合所含的词语,对第二类簇集合中的各个原始文件进行标引;根据第二类簇集合中的任一原始文件包含的目标词语的长度,以及该原始文件中被标引词语的长度,确定第二类簇集合中该原始文件的标引度。优选地,根据术语集合,确定第二类簇集合中的各个原始文件的标引度的步骤,包括:确定第二类簇集合中的任一原始文件的目标词语的数量,以及该原始文件的目标词语中包含有术语集合中词语的数量;根据该原始文件的目标词语的数量,以及该原始文件的目标词语中包含有术语集合中词语的数量,确定第二类簇集合中该原始文件的标引度。本专利技术实施例还提供一种知识组织系统的构建装置,包括:获取单元、聚类单元、筛选单元和更新单元,其中:获取单元用于获取目标领域相关的多个原始文件;聚类单元用于对多个原始文件进行聚类以生成第一类簇集合;筛选单元用于根据目标领域对应的预置词列表和词关系列表,对第一类簇集合中各个类簇进行筛选,以生成包括与目标领域相关联的类簇的第二类簇集合;更新单元用于依据第二类簇集合来更新预置词列表和词关系列表。优选地,筛选单元具体用于:根据预置词列表和词关系列表,确定预置词列表和词关系列表包含的词语在第一类簇集合中各个类簇中出现的次数;根据确定出的次数,从第一类簇集合中筛选出与目标领域相关联的类簇以生成第二类簇集合。优选地,更新单元具体用于:确定预置词列表所包含的词语与第二类簇集合中的各个类簇所包含的词语之间的相似度;依据第二类簇集合中确定出的相似度小于预定阈值的词语来更新预置词列表。优选地,更新单元具体用于:从第二类簇集合中的各个原始文件中提取目标词语;依据任一目标词语的上下文信息,确定该目标词语的关系向量;根据确定出的关系向量,计算第二类簇集合中的任意两个目标词语的相似度;根据任意两个目标词语的相似度与预定的相似度区间的关系,确定该任意两个目标词语的词关系,并根据词关系更新预置词关系列表。优选地,还包括:生成单元,生成单元用于:在生成包括与目标领域相关联的类簇的第二类簇集合的步骤之后,从第二类簇集合中的各个原始文件中提取符合预设词性和/或词长的词语;对符合预设词性和/或词长的词语去重,并依据去重后的词语生成目标领域的术语集合;其中,更新单元具体用于:依据目标领域的术语集合来更新预置词列表。优选地,还包括:确定单元,确定单元用于:根据目标领域的术语集合,确定第二类簇集合中的各个原始文件的标引度;根据确定出的标引度,确定第二类簇集合中的各个原始文件是否达标;其中,更新单元具体用于:依据第二类簇集合中达标的原始文件来更新目标领域对应的预置词关系列表。优选地,该构建装置还包括:提取单元,提取单元用于:提取第二类簇集合中的各个原始文件包含的目标词语;其中,确定单元具体用于:根据术语集合所含的词语,对第二类簇集合中的各个原始文件进行标引;根据第二类簇集合中的任一原始文件包含的目标词语的长度,以及该原始文件中被标引词语的长度,确定第二类簇集合中该原始文件的标引度。优选地,确定单元具体用于:确定第二类簇集合中的任一原始文件的目标词语的数量,以及该原始文件的目标词语中包含有术语集合中词语的数量;根据该原始文件的目标词语的数量,以及该原始文件的目标词语中包含有术语集合中词语的数量,确定第二类簇集合中该原始文件的标引度。本专利技术实施例还提供本文档来自技高网...
知识组织系统的构建方法、装置及服务器

【技术保护点】
一种知识组织系统的构建方法,其特征在于,包括:获取目标领域相关的多个原始文件;对所述多个原始文件进行聚类以生成第一类簇集合;根据所述目标领域对应的预置词列表和词关系列表,对所述第一类簇集合中各个类簇进行筛选,以生成包括与所述目标领域相关联的类簇的第二类簇集合;依据第二类簇集合来更新所述预置词列表和词关系列表。

【技术特征摘要】
1.一种知识组织系统的构建方法,其特征在于,包括:获取目标领域相关的多个原始文件;对所述多个原始文件进行聚类以生成第一类簇集合;根据所述目标领域对应的预置词列表和词关系列表,对所述第一类簇集合中各个类簇进行筛选,以生成包括与所述目标领域相关联的类簇的第二类簇集合;依据第二类簇集合来更新所述预置词列表和词关系列表。2.根据权利要求1所述的构建方法,其特征在于,所述根据所述目标领域对应的预置词列表和词关系列表,对所述第一类簇集合中各个类簇进行筛选,以生成包括与所述目标领域相关联的类簇的第二类簇集合的步骤,包括:根据所述预置词列表和词关系列表,确定所述预置词列表和词关系列表包含的词语在所述第一类簇集合中各个类簇中出现的次数;根据确定出的次数,从所述第一类簇集合中筛选出与所述目标领域相关联的类簇以生成第二类簇集合。3.根据权利要求1所述的构建方法,其特征在于,所述依据第二类簇集合来更新所述预置词列表的步骤,包括:确定所述预置词列表所包含的词语与第二类簇集合中的各个类簇所包含的词语之间的相似度;依据第二类簇集合中确定出的相似度小于预定阈值的词语来更新所述预置词列表。4.根据权利要求1所述的构建方法,其特征在于,所述依据第二类簇集合来更新所述预置词关系列表的步骤,包括:从第二类簇集合中的各个原始文件中提取目标词语;依据任一目标词语的上下文信息,确定该目标词语的关系向量;根据确定出的关系向量,计算第二类簇集合中的任意两个目标词语的相似度;根据任意两个目标词语的相似度与预定的相似度区间的关系,确定该任意两个目标词语的词关系,并根据词关系更新所述预置词关系列表。5.根据权利要求1-2任一所述的构建方法,其特征在于,所述生成包括与所述目标领域相关联的类簇的第二类簇集合的步骤之后,还包括:从第二类簇集合中的各个原始文件中提取符合预设词性和/或词长的词语;对所述符合预设词性和/或词长的词语去重,并依据去重后的词语生成所述目标领域的术语集合;其中,依据第二类簇集合来更新所述预置词列表,包括:依据所述目标领域的术语集合来更新所述预置词列表。6.根据权利要求5所述的构建方法,其特征在于,还包括:根据所述目标领域的术语集合,确定第二类簇集合中的各个原始文件的标引度;根据确定出的标引度,确定第二类簇集合中的各个原始文件是否达标;其中,依据第二类簇集合来更新所述预置词关系列表:依据所述第二类簇集合中达标的原始文件来更新所述目标领域对应的预置词关系列表。7.根据权利要求5所述的构建方法,其特征在于,所述根据所述术语集合,确定第二类簇集合中的各个原始文件的标引度的步骤之前,还包括:提取所述第二类簇集合中的各个原始文件包含的目标词语;其中,所述根据所述术语集合,确定第二类簇集合中的各个原始文件的标引度的步骤,包括:根据所述术语集合所含的词语,对第二类簇集合中的各个原始文件进行标引;根据所述第二类簇集合中的任一原始文件包含的目标词语的长度,以及该原始文件中被标引词语的长度,确定第二类簇集合中该原始文件的标引度。8.根据权利要求7所述的构建方法,其特征在于,所述根据所述术语集合,确定第二类簇集合中的各个原始文件的标引度的步骤,包括:确定所述第二类簇集合中的任一原始文件的目标词语的数量,以及该原始文件的目标词语中包含有所述术语集合中词语的数量;根据该原始文件的目标词语的数量,以及该原始文件的目标词语中包含有所述术语集合中词语的数量,确定第二类簇集合中该原始文...

【专利技术属性】
技术研发人员:张运良侯慧敏姚长青
申请(专利权)人:中国科学技术信息研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1