语料处理方法及装置制造方法及图纸

技术编号:15541916 阅读:45 留言:0更新日期:2017-06-05 11:06
本发明专利技术公开了一种语料处理方法及装置。其中,该方法包括:将语料划分为多个词语片段;确定多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计每个词语片段对应的聚类对象,其中,在向量空间中,每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为语料的中心。本发明专利技术解决了相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。

Data processing method and apparatus

The invention discloses a corpus processing method and a device. Among them, the method includes: the data is divided into a plurality of word fragments; determine the location information of each word fragment multiple words fragment in the vector space; clustering objects, each word fragment corresponding statistics were determined according to the location information of the object in the vector space, clustering of each word corresponds to the distance between the fragments the distance is less than or equal to the threshold value; based on the statistical results of clustering objects, the maximum value of the statistical clustering object corresponding words fragment location as the data center. The invention solves the technical problems of inaccurate calculation results of long word centers caused by uneven distribution of short words in related technologies.

【技术实现步骤摘要】
语料处理方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种语料处理方法及装置。
技术介绍
Kmeans算法是自然语言处理领域中经典的基于划分的聚类算法。在Kmeans算法中,对长词聚类时,需要先将长词分成几个有实际含义的短词,再用短词来计算长词的中心。在相关技术中,为了通过所有短词算出长词的中心,需要将所有短词对应维度向量的坐标加和取平均值,得到长词对应的维度向量的坐标,依次计算加和取平均值就可以得到长词所有维度向量的坐标。比如,长词:ABCDEFG,对该长词进行分词处理,得到各短词为:ABC,DE,FG,它们对应的维度向量分别为:V(ABC),V(DE),V(FG),经汇总计算,得到长词的维度向量为:(V(ABC)+V(DE)+V(FG))/3。但是,上述方案存在缺陷,例如,在所有短词在空间中不是均匀分布的,即分布区域的密度变化很大时,加和求平均值就不能精准的算出长词的中心。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术实施例提供了一种语料处理方法及装置,以至少解决相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。根据本专利技术实施例的一个方面,提供了一种语料处理方法,包括:将语料划分为多个词语片段;确定上述多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计上述每个词语片段对应的聚类对象,其中,在向量空间中,上述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为上述语料的中心。进一步地,将语料划分为多个词语片段包括:判断上述语料中是否包含多个具有实际语义的词语片段;在判断结果为上述语料中包含上述多个具有实际语义的词语片段的情况下,按语义将上述语料划分为上述多个词语片段。进一步地,判断上述语料中是否包含多个具有实际语义的词语片段包括:将上述语料与预设词典中的词语进行匹配,其中,上述预设词典中的词语为在语义上不能划分的最小语料单位;在上述语料与上述预设词典中的词语匹配失败的情况下,确定上述语料中包含上述多个具有实际语义的词语片段。进一步地,将上述语料划分为上述多个词语片段之前,上述方法还包括:对上述语料进行预处理,除去上述语料中没有实际语义的词或词语。进一步地,确定上述多个词语片段中每个词语片段在向量空间的位置信息包括:将上述多个词语片段中每个词语片段与预设词典中的词语进行匹配,找出上述每个词语片段的坐标数据,其中,上述预设词典中的词语为在语义上不能划分的最小语料单位;将找出的坐标数据作为上述每个词语片段在向量空间的位置信息。根据本专利技术实施例的另一方面,还提供了一种语料处理装置,包括:划分单元,用于将语料划分为多个词语片段;第一确定单元,用于确定上述多个词语片段中每个词语片段在向量空间的位置信息;统计单元,用于根据确定的位置信息分别统计上述每个词语片段对应的聚类对象,其中,在向量空间中,上述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;第二确定单元,用于根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为上述语料的中心。进一步地,上述划分单元包括:判断模块,用于判断上述语料中是否包含多个具有实际语义的词语片段;划分模块,用于在判断结果为上述语料中包含上述多个具有实际语义的词语片段的情况下,按语义将上述语料划分为上述多个词语片段。进一步地,上述判断模块包括:匹配子模块,用于将上述语料与预设词典中的词语进行匹配,其中,上述预设词典中的词语为在语义上不能划分的最小语料单位;确定子模块,用于在上述语料与上述预设词典中的词语匹配失败的情况下,确定上述语料中包含上述多个具有实际语义的词语片段。进一步地,上述装置还包括:预处理单元或预处理模块,用于将上述语料划分为上述多个词语片段之前,对上述语料进行预处理,除去上述语料中没有实际语义的词或词语。进一步地,上述第一确定单元包括:匹配模块,用于将上述多个词语片段中每个词语片段与预设词典中的词语进行匹配,找出上述每个词语片段的坐标数据,其中,上述预设词典中的词语为在语义上不能划分的最小语料单位;确定模块,用于将找出的坐标数据作为上述每个词语片段在向量空间的位置信息。在本专利技术实施例中,采用统计每个词语片段的聚类对象的方式,通过将语料划分为多个词语片段;确定多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计每个词语片段对应的聚类对象,其中,在向量空间中,每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为语料的中心,达到了减小词语片段的分布情况对语料中心影响的目的,从而实现了提高语料中心的计算结果精确度技术效果,进而解决了相关技术中由于短词分布不均匀造成的长词中心的计算结果不精确的技术问题。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的一种可选的语料处理方法的流程图;图2是根据本专利技术实施例的一种可选的语料处理装置的示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。实施例1根据本专利技术实施例,提供了一种语料处理方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本专利技术实施例的一种可选的语料处理方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,将语料划分为多个词语片段;步骤S104,确定多个词语片段中每个词语片段在向量空间的位置信息;步骤S106,根据确定的位置信息分别统计每个词语片段对应的聚类对象,其中,在向量空间中,每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;步骤S108,根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为语料的中心。需要说明的是,本专利技术中的语料可以是从互联网搜索关键词集合中获取的需要做分词处理的语料,上述将语料划分为多个词语片段的过程即为对语料进行中文分词的过程,分词得到的词语片段为具本文档来自技高网
...
语料处理方法及装置

【技术保护点】
一种语料处理方法,其特征在于,包括:将语料划分为多个词语片段;确定所述多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计所述每个词语片段对应的聚类对象,其中,在向量空间中,所述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为所述语料的中心。

【技术特征摘要】
1.一种语料处理方法,其特征在于,包括:将语料划分为多个词语片段;确定所述多个词语片段中每个词语片段在向量空间的位置信息;根据确定的位置信息分别统计所述每个词语片段对应的聚类对象,其中,在向量空间中,所述每个词语片段与其对应的聚类对象间的距离小于等于距离阈值;根据聚类对象统计结果,将最大聚类对象统计值对应的词语片段的位置作为所述语料的中心。2.根据权利要求1所述的方法,其特征在于,将语料划分为多个词语片段包括:判断所述语料中是否包含多个具有实际语义的词语片段;在判断结果为所述语料中包含所述多个具有实际语义的词语片段的情况下,按语义将所述语料划分为所述多个词语片段。3.根据权利要求2所述的方法,其特征在于,判断所述语料中是否包含多个具有实际语义的词语片段包括:将所述语料与预设词典中的词语进行匹配,其中,所述预设词典中的词语为在语义上不能划分的最小语料单位;在所述语料与所述预设词典中的词语匹配失败的情况下,确定所述语料中包含所述多个具有实际语义的词语片段。4.根据权利要求1或2所述的方法,其特征在于,将所述语料划分为所述多个词语片段之前,所述方法还包括:对所述语料进行预处理,除去所述语料中没有实际语义的词或词语。5.根据权利要求1所述的方法,其特征在于,确定所述多个词语片段中每个词语片段在向量空间的位置信息包括:将所述多个词语片段中每个词语片段与预设词典中的词语进行匹配,找出所述每个词语片段的坐标数据,其中,所述预设词典中的词语为在语义上不能划分的最小语料单位;将找出的坐标数据作为所述每个词语片段在向量空间的位置信息。6.一种语料处理装置,其特征在于,包括:划分单元...

【专利技术属性】
技术研发人员:赵凯
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1