【技术实现步骤摘要】
跨语言隐性关联知识发现方法、装置、设备和存储介质
[0001]本申请涉及知识发现
,具体而言,本申请涉及一种跨语言隐性关联知识发现方法、装置、设备和存储介质。
技术介绍
[0002]基于文献的知识发现(Literature
‑
based Discovery,LBD)方法是一种通过文献挖掘来发现知识的传递与隐性关联的经典情报学方法。LBD通常以公开发表的科技文献为分析对象,通过文本挖掘、自然语言处理和机器学习等技术从中挖掘出知识概念及其之间的隐性关联,发现潜在的“新”知识。
[0003]由于不同语言之间存在着语法、词汇、结构和文化的差异,这些差异导致知识的含义和关系难以捕捉,使不同语言之间知识存在信息歧义和误解,知识之间的隐性关联错误匹配、信息失真,导致获取的知识之间的隐性关联可靠性低。另外,不同语言之间存在知识不平衡的问题,不同语言之间科技文献的数量和质量存在差异,知识不平衡会导致跨语言知识发现时,某些知识之间的隐性关联被高估或是低估,导致获取的知识之间的隐性关联可靠性低。
[0004 ...
【技术保护点】
【技术特征摘要】
1.一种跨语言隐性关联知识发现方法,其特征在于,包括:对第一语言科技文献数据集进行关键词提取,得到第一语言关键词集,对第二语言科技文献数据集进行关键词提取,得到第二语言关键词集;对所述第二语言关键词集中每一第二语言关键词进行第一语言翻译和词义消歧处理,得到目标译文关键词集;根据所述第一语言关键词集和所述目标译文关键词集中各关键词之间的共现关系和每一关键词的语言属性,获取至少一个潜在隐性关联词对和每一潜在隐性关联词对中词的关联程度;其中,隐性关联词对中的两个关键词分别只来源于所述第一语言科技文献数据集和所述第二语言科技文献数据集;所述语言属性表征所述关键词来源的科技文献数据集的语言类型;根据各关联程度筛选各潜在隐性关联词对,获取目标隐性关联词对。2.根据权利要求1所述的跨语言隐性关联知识发现方法,其特征在于,所述对所述第二语言关键词集中每一第二语言关键词进行第一语言翻译和词义消歧处理,得到目标译文关键词集,具体包括:根据第一语言和第二语言对应的双语科技词典,将所述第二语言关键词集中的每一第二语言关键词翻译为第一语言,得到初始译文关键词集;其中,所述每一第二语言关键词在所述初始译文关键词集中对应至少一个译文关键词;过滤所述初始译文关键词集中未在所述第一语言关键词集中存在的所述译文关键词,得到中间译文关键词集;筛选出所述中间译文关键词集中所述每一第二语言关键词对应的唯一译文关键词,得到目标译文关键词。3.根据权利要求2所述的跨语言隐性关联知识发现方法,其特征在于,所述筛选出所述中间译文关键词集中所述每一第二语言关键词对应的唯一译文关键词,具体包括:对于所述第二语言关键词集中所述每一第二语言关键词,根据所述第二语言科技文献数据集中包含所述第二语言关键词的文本,获取所述第二语言关键词对应的上下文词向量;根据所述中间译文集中所述第二语言关键词对应的各译文关键词获取每一译文关键词的词向量;根据所述每一译文关键词的词向量和所述上下文词向量,获取每一译文关键词的词向量和第二语言关键词对应的上下文词向量的相似度;根据各相似度,筛选出与最大相似度对应的译文关键词作为所述唯一译文关键词。4.根据权利要求1
‑
3任一项所述的跨语言隐性关联知识发现方法,其特征在于,所述共现关系包括:一阶共现关系和二阶共现关系;所述潜在隐性关联词对的获取方法包括:根据所述第一语言关键词集和所述目标译文关键词集中各关键词之间的所述一阶共现关系,获取一阶共现词对;根据所述第一语言关键词集和所述目标译文关键词集中各关键词之间的所述二阶共现关系,获取二阶共现词对;根据所述一阶共现词对、所述二阶共现词对和各词对中每一关键词的所述语言属性,
获取潜在隐性关联词对。5.根据权利要求4所述的跨语言隐性关联知识发现方法,其特征在于,所述根据所述一阶共现词对、所述二阶共现词对和各词对中每一关键词的所述语言属性,获取潜...
【专利技术属性】
技术研发人员:徐红姣,何彦青,刘志辉,王莉军,兰天,许德山,潘优,
申请(专利权)人:中国科学技术信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。