一种计算词性相关性的方法及装置制造方法及图纸

技术编号:16038107 阅读:68 留言:0更新日期:2017-08-19 19:56
本发明专利技术实施例公开了一种计算词性相关性的方法及装置。该方法包括:获取文本并进行分词处理,根据TF‑IDF权重计算方法计算所有词汇的TF‑IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量;计算关键词汇的特征向量之间的向量距离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。本发明专利技术需要统计一定时间内词汇出现的频次,根据出现的频次计算出词汇的增长率向量来计算词汇之间的相关性大小。另外,本发明专利技术可以研究某一领域的词汇相关性,通过某领域内特定的目标关键词来预测与其相关词汇的出现,利用该特性可以进行事件与事件之间的相互检索。

【技术实现步骤摘要】
一种计算词性相关性的方法及装置
本专利技术实施例涉及自然语言处理中词汇相关性计算领域,尤其涉及一种计算词性相关性的方法及装置。
技术介绍
词汇的相关性研究是在自然语言处理的一个基本研究课题,相关性计算水平的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。在传统的词语相关性研究中,大多关注一对词汇之间的相关性;并且大多都存在一个假设:即相关的词汇至少应该以“共同出现”为基础。在国外,词汇的相关性研究起步较早,成果也相对较多。目前较为成熟的相关性语义词典有WordNet、FrameNetE、MindNet等。而国内汉语方面也有HOW—Net、同义词词林等。这些语义词典从本质上是通过研究词与词之间的关系相互映射,并通过大量统计得到。它们均是靠人为统计和计算,从研发到产品上线大都需要耗费一定的人力和资源。目前被广泛研究与采用的两种方法是基于世界知识(Ontology)或某种分类体系(Taxonomy)的方法和基于统计的上下文向量空间模型方法。由于一些理论上以及运行条件的限制,现有的技术还存在很多问题,难以发挥理想的效果。例如,在单文本或是单个自然段中,基于上下文统计本文档来自技高网...
一种计算词性相关性的方法及装置

【技术保护点】
一种计算词性相关性的方法,其特征在于,所述方法包括:获取文本并进行分词处理,根据TF‑IDF权重计算方法计算所有词汇的TF‑IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;计算关键词汇的特征向量之间的向量距离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。

【技术特征摘要】
1.一种计算词性相关性的方法,其特征在于,所述方法包括:获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇;获取每个关键词汇对应的特征向量,所述特征向量包括频次向量或者增长率向量,所述频次向量用于标识所述关键词汇的频次,所述增长率向量用于标识所述关键词汇的变化率;计算关键词汇的特征向量之间的向量距离;若所述向量距离大于预设距离阈值,则确定所述向量距离对应的关键词汇具有词汇相关性。2.根据权利要求1所述的方法,其特征在于,所述获取文本并进行分词处理,根据TF-IDF权重计算方法计算所有词汇的TF-IDF权重值,并筛选关键词汇,包括:获取预设第一时间间隔内的特定类型文本作为实验文本集,并将数据按照预设第二时间间隔进行存储;通过文本分词技术将所述第二时间间隔内的文本进行分词,并统计所有词汇在所述第二时间间隔内出现的频次;通过统计每个词汇的频次,根据所述每个词汇的频次和所述文本在所述第二时间间隔内出现的次数来计算所述每个词汇的TF-IDF值,并将所有词汇根据TF-IDF值进行词汇排序,将TF-IDF值大的词汇筛选为关键词汇。3.根据权利要求1所述的方法,其特征在于,所述获取每个关键词汇对应的频次向量,包括:获取每个关键词汇在所述第一时间间隔内的所有频次值,将所述频次值按照向量来表示,并形成了一个多维的向量。4.根据权利要求3所述的方法,其特征在于,所述获取每个关键词汇对应的增长率向量,包括:获取每个关键词汇在所述第一时间间隔内的所有频次值;根据所述所有频次值计算(Fi+1-Fi)/Fi,所述Fi为所述频次向量对应第i个频次值,所述Fi+1为所述频次向量对应的第i+1个频次值;将计算得到的(Fi+1-Fi)/Fi按照向量来表示,并形成了一个多维的向量。5.根据权利要求1至4任意一项所述的方法,其特征在于,所述方法还包括:若所述向量距离小于等于所述预设距离阈值,则确定所述向量距离对应的关键词汇不具有...

【专利技术属性】
技术研发人员:李强刘鹏
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1