一种利用计算机系统进行自动标引及检索的方法技术方案

技术编号:18289452 阅读:47 留言:0更新日期:2018-06-24 04:08
本发明专利技术公开了一种利用计算机系统进行自动标引及检索的方法,包括输入系统,其特征在于,所述输入系统输入以确定标引源。本发明专利技术词汇链构建方法以全文为处理单位,首先要对文本进行预处理,包括文本分词、低频词过滤、词性标注和语义标注等活动;接着对经过语义标注的名词进行处理,计算词语间的语义相关度,将语义相关度值满足条件的词语作为候选词,并对其进行同义词合并等操作,然后过滤掉对文献的意义贡献不大的词语,把语义上相关的词语聚合在一起作为词汇链。有效减少自动标引系统的工作量,词义标注和词性标注为人工输入计算机系统批量标注,较人工一一标注提高效率,有良好的经济效益和社会效益,适合推广使用。

【技术实现步骤摘要】
一种利用计算机系统进行自动标引及检索的方法
本专利技术涉及一种标引方法,特别涉及一种利用计算机系统进行自动标引及检索的方法,属于计算机系统应用

技术介绍
关键词自动标引的任务是根据文档的主题内容,借助计算机处理技术,自动从文档中直接抽取关键词作为标引词。因此有人也把关键词自动标引称作关键词抽取技术。关键词自动标引,可以为自动摘要、自动分类、自动聚类、机器翻译等应用提供辅助作用。自动标引方法主要有三类:统计标引方法、机器学习标引方法、语言学标引方法。统计标引方法利用词语的统计特征,如字同现、词共现、逆文档词频、互信息等实现自动标引。抽取关键词的准确率低,标引效果不是太好,且目前词义标注的效率还不是很高。
技术实现思路
本专利技术要解决的技术问题是克服现有技术的缺陷,提供一种利用计算机系统进行自动标引及检索的方法,使用方便,节约了大量的成本。为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术提供一种利用计算机系统进行自动标引及检索的方法,包括输入系统,其特征在于,所述输入系统输入以确定标引源,所述输入系统后进行预处理系统、词汇链构建系统和关键词选择系统进行运行,所述预处理系统内包含文本分词、词频过滤、词义标注和词性标注系统运行,所述词汇链构建系统内包含计算相关度、选择候选词、候选词清洗和构建词汇链系统运行,所述关键词选择系统内包含候选词打分和选择关键词系统运行,所述关键词选择系统完成后输出关键词。作为本专利技术的一种优选技术方案,所述候选词打分公式采用score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|公式,所述score(wi)表示词语wi的分值,frei表示词语wi在文章中出现的次数,loci表示词语wi在文章中的位置。作为本专利技术的一种优选技术方案,所述当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini|表示词语wi所在词汇链包含的词语的个数。a、b、c、d分别是frei、loci、valuei、|chaini|的加权系数。根据公式为每个词语打分,按照词语的分值进行降序排序,选择前m个词语作为文章的关键词,其中m是所需要的关键词的个数。作为本专利技术的一种优选技术方案,所述词义标注和词性标注为人工输入计算机系统批量标注。本专利技术所达到的有益效果是:本专利技术词汇链构建方法以全文为处理单位,首先要对文本进行预处理,包括文本分词、低频词过滤、词性标注和语义标注等活动;接着对经过语义标注的名词进行处理,计算词语间的语义相关度,将语义相关度值满足条件的词语作为候选词,并对其进行同义词合并等操作,然后过滤掉对文献的意义贡献不大的词语,把语义上相关的词语聚合在一起作为词汇链。有效减少自动标引系统的工作量,有的自动标引系统在经过文本分词后,会先过滤掉那些词频很低的词语,然后再进行语义标注和词性标注,词义标注和词性标注为人工输入计算机系统批量标注,较人工一一标注提高效率,有良好的经济效益和社会效益,适合推广使用。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术的整体结构示意图;图2是本专利技术的分系统结构示意图;图中:1、输入系统;2、预处理系统;3、词汇链构建系统;4、关键词选择系统;5、确定标引源;6、文本分词;7、词频过滤;8、词义标注;9、词性标注;10、计算相关度;11、选择候选词;12、候选词清洗;13、构建词汇链;14、候选词打分;15、选择关键词;16、输出关键词。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:如图1-2所示,本专利技术提供一种利用计算机系统进行自动标引及检索的方法,包括输入系统1,其特征在于,所述输入系统1输入以确定标引源5,所述输入系统1后进行预处理系统2、词汇链构建系统3和关键词选择系统4进行运行,所述预处理系统2内包含文本分词6、词频过滤7、词义标注8和词性标注9系统运行,所述词汇链构建系统3内包含计算相关度10、选择候选词11、候选词清洗12和构建词汇链13系统运行,所述关键词选择系统4内包含候选词打分14和选择关键词15系统运行,所述关键词选择系统4完成后输出关键词16。为了使该种利用计算机系统进行自动标引及检索的方法,使用方便,工作效率高,所述候选词打分14公式采用score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|公式,所述score(wi)表示词语wi的分值,frei表示词语wi在文章中出现的次数,loci表示词语wi在文章中的位置。所述当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini|表示词语wi所在词汇链包含的词语的个数。a、b、c、d分别是frei、loci、valuei、|chaini|的加权系数。根据公式为每个词语打分,按照词语的分值进行降序排序,选择前m个词语作为文章的关键词,其中m是所需要的关键词的个数。所述词义标注8和词性标注9为人工输入计算机系统批量标注。本专利技术在使用时,首先对文本进行分词、词频过滤、词性标注和词义标注,然后设定词语语义相关度阈值s,接着以句子为单位,计算句子中词语之间的语义相关度值,将相关度值大于s的词语加入候选词汇集H,H的最终结果为{w1,w2,……,wn},从H中选择w1作为初始词汇链L的第一个元素,并将w1从H中删除,从H的剩余词语中,选取与L中的词语语义相关度大于s的词语,将其加入词汇链L,同时将这些词从H中删除。重复此步直到L中没有新的词语加入,L就是一条词汇链,重复构建其它词汇链,直到H中不存在词语。关键词自动标引的流程为第一步是确定标引源,即关键词自动标引的输入数据,根据具体的情况,可以是标题、摘要、小标题和全文等的组合。第二步是预处理,主要是将输入的文本变为规模更小的经过语义标注的词语集合。包括文本分词、低频词过滤、词义标注和词性标注。第三步是构建词汇链的过程,计算词语间的语义相关度,选择语义相关度值大于阈值的词语作为候选词,并对同义词、别名、低频词等情况进行处理,再根据词汇链构建算法构建词汇链。词频和词语位置是主要因素,其中又以词语的位置最为重要,词语的价值和词汇链的长度可以在前两个因素计算结果相同的情况下,对词语的重要性进行细分,采用公式score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|对候选词进行打分,其中score(wi)表示词语wi的分值。frei表示词语wi在文章中出现的次数。loci表示词语wi在文章中的位置,当词语wi出现在标题中时loci=3,出现在摘要中loci=1,出现在正文中时loci=0。valuei表示词语wi的价值,由词语wi的在《HowNet》中概念的首义原在义原树中的深度衡量。|Chaini本文档来自技高网...
一种利用计算机系统进行自动标引及检索的方法

【技术保护点】
1.一种利用计算机系统进行自动标引及检索的方法,包括输入系统(1),其特征在于,所述输入系统(1)输入以确定标引源(5),所述输入系统(1)后进行预处理系统(2)、词汇链构建系统(3)和关键词选择系统(4)进行运行,所述预处理系统(2)内包含文本分词(6)、词频过滤(7)、词义标注(8)和词性标注(9)系统运行,所述词汇链构建系统(3)内包含计算相关度(10)、选择候选词(11)、候选词清洗(12)和构建词汇链(13)系统运行,所述关键词选择系统(4)内包含候选词打分(14)和选择关键词(15)系统运行,所述关键词选择系统(4)完成后输出关键词(16)。

【技术特征摘要】
1.一种利用计算机系统进行自动标引及检索的方法,包括输入系统(1),其特征在于,所述输入系统(1)输入以确定标引源(5),所述输入系统(1)后进行预处理系统(2)、词汇链构建系统(3)和关键词选择系统(4)进行运行,所述预处理系统(2)内包含文本分词(6)、词频过滤(7)、词义标注(8)和词性标注(9)系统运行,所述词汇链构建系统(3)内包含计算相关度(10)、选择候选词(11)、候选词清洗(12)和构建词汇链(13)系统运行,所述关键词选择系统(4)内包含候选词打分(14)和选择关键词(15)系统运行,所述关键词选择系统(4)完成后输出关键词(16)。2.根据权利要求1所述的一种利用计算机系统进行自动标引及检索的方法,其特征在于,所述候选词打分(14)公式采用score(wi)=a×frei+b×loci+c×valuei+d×|Chaini|公式,所述score(...

【专利技术属性】
技术研发人员:席素梅
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1