词汇相关性确定方法、装置、设备和计算机可读存储介质制造方法及图纸

技术编号:20866722 阅读:38 留言:0更新日期:2019-04-17 09:23
本发明专利技术公开了一种词汇相关性确定方法、装置、设备和计算机可读存储介质,一种词汇相关性确定方法包括:获取目标文本;以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示;将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线;对多个连续的词汇曲线分别进行傅里叶变换,得到多个词汇的特征向量;对多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇。本发明专利技术公开的词汇相关性确定方法、装置设备和计算机可读存储介质,用于提高词汇相关性确定的效率。

【技术实现步骤摘要】
词汇相关性确定方法、装置、设备和计算机可读存储介质
本专利技术实施例涉及计算机技术,尤其涉及一种词汇相关性确定方法、装置、设备和计算机可读存储介质。
技术介绍
词汇的相关性研究是在自然语言处理的一个基本研究课题,相关性计算水平的提高对文本聚类、语义消歧、语义Web、信息检索等众多应用领域具有重要意义。在传统的词语相关性研究中,大多关注一对词汇之间的相关性,并且大多都存在一个假设:即相关的词汇至少应该以“共同出现”为基础。而基于共同出现的词汇相关性研究,本质上都是通过研究词与词之间的关系相互映射,并通过大量统计得到的。而这些统计均是靠人为统计和计算进行的,从研发到产品上线大都需要耗费大量的人力和资源。
技术实现思路
本专利技术提供一种词汇相关性确定方法、装置、设备和计算机可读存储介质,以提高词汇相关性确定的效率。第一方面,本专利技术实施例提供一种词汇相关性确定方法,包括:获取目标文本;以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示;将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线;对多个连续的词汇曲线分别进行傅里叶变换,得到多个词汇的特征向量;对多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇。在第一方面一种可能的实现方式中,以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示之前,方法还包括:从目标文本中去除停用词。在第一方面一种可能的实现方式中,以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示之前,方法还包括:对目标文本进行分词处理,并统计目标文本中不同词汇在不同时间的出现频次。在第一方面一种可能的实现方式中,将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线,包括:分别将直角坐标系中的不同词汇对应的离散点进行平滑处理,得到多个连续的词汇曲线。在第一方面一种可能的实现方式中,对多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇,包括:根据多个词汇的特征向量的振幅,对多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇。第二方面,本专利技术实施例还提供了一种词汇相关性确定装置,包括:文本获取模块,用于获取目标文本;词汇转换模块,用于以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示;词汇处理模块,用于将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线;向量提取模块,用于对多个连续的词汇曲线分别进行傅里叶变换,得到多个词汇的特征向量;词汇聚类模块,用于对多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇。在第二方面一种可能的实现方式中,词汇相关性确定装置还包括:词汇选取模块,用于从目标文本中去除停用词。在第二方面一种可能的实现方式中,词汇处理模块,具体用于分别将直角坐标系中的不同词汇对应的离散点进行平滑处理,得到多个连续的词汇曲线。第三方面,本专利技术实施例还提供了一种词汇相关性确定设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面任一种可能的实现方式所述的词汇相关性确定方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面任一种可能的实现方式所述的词汇相关性确定方法。本专利技术实施例提供的词汇相关性确定方法、装置、设备和计算机可读存储介质,通过获取目标文本,然后以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示,接着将直角坐标系中的不同词汇分别处理为多个连续的词汇曲线,在对多个连续的词汇曲线分别进行傅里叶变换,得到多个词汇的特征向量,从而在对多个词汇的特征向量进行聚类处理后,可以将聚类相同的词汇确定为相关词汇,实现了词汇相关性的自动处理,避免采用人力的方式进行词汇相关性的处理,适用于大数据平台中数据的处理。附图说明图1为本专利技术实施例提供的词汇相关性确定方法实施例一的流程图;图2为本专利技术实施例提供的词汇相关性确定装置实施例一的结构示意图;图3为本专利技术实施例提供的词汇相关性确定设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。图1为本专利技术实施例提供的词汇相关性确定方法实施例一的流程图,如图1所示,本实施例提供的词汇相关性确定方法包括:步骤S101,获取目标文本。为了解决现有技术中,对词汇相关性的统计仅能依靠人力实现所带来的问题,本实施例提供一种词汇相关性的确定方法,通过将文本中的词汇经过傅里叶变换后提取特征向量的方法,将文本中的不同词汇都采用特征向量来表示,并将特征向量进行聚类后,确定词汇之间的相关性,从而避免人工处理,而是可以由计算机实现自动的词汇相关性判断处理。本实施例提供的词汇相关性确定方法可以应用于任一种具有处理能力的计算机、服务器或其他硬件设备。特别的,由于在大数据平台中,具有大量文本处理需求,为了提高大数据平台的处理效率,本实施例提供的词汇相关性确定方法可以应用于大数据平台,由大数据平台中的一台或多台大数据服务器执行。首先,对词汇相关性的确定需要基于一定的文本数据样本,这里的文本数据样本包括大量不同时间的文本数据。不同类型的文本数据中,词汇之间的相关性也是存在区别的,因此,根据实际需求,文本数据样本可以是固定类型的文本数据集合,也可以是不同类型的文本数据集合。根据不同的文本数据样本,所确定的词汇相关性结果也不同,但文本数据样本的数量越多,所确定的词汇相关性结果准确性页越高。将确定的文本数据样本称为目标文本,即待进行词汇相关性处理的文本。步骤S102,以时间为横坐标,词汇出现频次为纵坐标,将目标文本中的不同词汇分别在直角坐标系中进行表示。由于在相同时间的文本中出现的词汇之间才具有相关性,因此,为了确定词汇之间的相关性,需要考虑各词汇出现的时间。在确定了目标文本之后,首先需要将目标文本中的词汇按照不同时间分离出来,也就是得到不同时间所出现的词汇集合。这里的时间是一个固定的时间段,例如一天、一小时等。在统计不同时间所出现的词汇集合时,还需要统计各时间内不同词汇分别出现的频次,也就是每个时间段内各词汇分别出现了多少次。然后以时间为横坐标、词汇出现频次为纵坐标,可以将目标文本中的不同词汇分别在直角坐标系中表示出来。也就是将不同时间所出现的词汇集合以及各词汇所出现的频次转化在二维的直角坐标系中。需要说明的是,在确定了目标文本后,需要对目标文本进行分词处理,才能得到各目标文本所对应的词汇集合,然后需要在各目标文本所对应的词汇集合中进行统计不同词汇在不同时间的出现频次。对目标文本进行分词处理的具体方法可以采用现有的任一种文本处理方法,在本实施例中不再赘述。若在某个时间点上,一个词汇并未出现,则该词汇在该时间的出现频次为0。另外,在得到目标文本后,从目标文本中获取词汇之前,还可以去除目标文本中的停用词。停用词是指在信息检索中,为节省存储空间和提高搜索本文档来自技高网...

【技术保护点】
1.一种词汇相关性确定方法,其特征在于,包括:获取目标文本;以时间为横坐标,词汇出现频次为纵坐标,将所述目标文本中的不同词汇分别在直角坐标系中进行表示;将所述直角坐标系中的不同词汇分别处理为多个连续的词汇曲线;对所述多个连续的词汇曲线分别进行傅里叶变换,得到多个词汇的特征向量;对所述多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇。

【技术特征摘要】
1.一种词汇相关性确定方法,其特征在于,包括:获取目标文本;以时间为横坐标,词汇出现频次为纵坐标,将所述目标文本中的不同词汇分别在直角坐标系中进行表示;将所述直角坐标系中的不同词汇分别处理为多个连续的词汇曲线;对所述多个连续的词汇曲线分别进行傅里叶变换,得到多个词汇的特征向量;对所述多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇。2.根据权利要求1所述的方法,其特征在于,所述以时间为横坐标,词汇出现频次为纵坐标,将所述目标文本中的不同词汇分别在直角坐标系中进行表示之前,所述方法还包括:从所述目标文本中去除停用词。3.根据权利要求1或2所述的方法,其特征在于,所述以时间为横坐标,词汇出现频次为纵坐标,将所述目标文本中的不同词汇分别在直角坐标系中进行表示之前,所述方法还包括:对所述目标文本进行分词处理,并统计所述目标文本中不同词汇在不同时间的出现频次。4.根据权利要求1或2所述的方法,其特征在于,所述将所述直角坐标系中的不同词汇分别处理为多个连续的词汇曲线,包括:分别将所述直角坐标系中的不同词汇对应的离散点进行平滑处理,得到多个连续的词汇曲线。5.根据权利要求1或2所述的方法,其特征在于,所述对所述多个词汇的特征向量进行聚类处理,将聚类相同的词汇确定为相关词汇,包括:根据所述多个词汇的特征向量...

【专利技术属性】
技术研发人员:万月亮李强火一莽
申请(专利权)人:北京锐安科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1