一种面向文本的知识单元关联关系挖掘方法技术

技术编号:7309618 阅读:268 留言:0更新日期:2012-05-03 03:45
本发明专利技术公开了一种面向文本的知识单元关联关系挖掘方法,按照如下步骤:(1)对文本集合进行聚类,找到具有相似主题的文本子集合,在此基础上,利用文本中术语分布的不对称性,挖掘文本间的线性关联关系。(2)利用知识单元对关联关系的局部性,产生候选知识单元对;(3)基于知识单元对的术语词频、距离和语义类型特征,对候选的知识单元对进行二值分类,识别知识单元对的关联关系。本发明专利技术可大大减少候选知识单元个数,在保证精度的前提下,有效地降低了关系挖掘的时间复杂度。

【技术实现步骤摘要】

本专利技术涉及一种网络数据的检索方法,特别涉及。
技术介绍
随着计算机网络的迅速发展和日益普及,因特网上的信息以指数增长。信息时代带来了海量的数字化文本,日益积累的数据使得信息的获取越来越困难。人们的时间和精力是有限的,面对如此巨大的数字资源,无法从大量数据中迅速而准确地找到有用的信息, 因而需要自动化的抽取工具,来帮助人们检索海量数据。申请人经过查新,没有找到面向文本的知识单元关联关系挖掘方法的专利,因而检索了三篇与关系挖掘相关的专利,它们分别是1.Relation extraction system;2. Method and a system for semantic relation extraction;3. 一种词关系挖掘方法和装置。在专利1中,专利技术人提出一种将有监督学习和半监督学习相结合的方法,抽取出文本间的关系,在专利2中,专利技术人提出一种基于概率统计模型抽取出两个词条间的语义关系,在专利3中,专利技术人提出一种通过计算候选关系、关系频度以及词条的词频计算互信息,根据互信息对关系进行排序,将符合预设阈值的关系作为词条关系输出。上述三种相关专利专利技术所述方法都本文档来自技高网...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:刘均郑庆华叶俊挺
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术