用于语义挖掘的复合词处理方法、装置及其设备制造方法及图纸

技术编号:17667600 阅读:33 留言:0更新日期:2018-04-11 05:54
本发明专利技术提出一种用于语义挖掘的复合词处理方法、装置及其设备,其中,方法包括:确定训练语料中每句话的M个分词;按照M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将N维目标复合词输入给词袋模型进行语义挖掘。由此,实现将更多更大粒度的语义特征引入词袋模型,进一步提升词袋模型的效果。

Compound word processing method, device and equipment for semantic mining

The invention proposes a method for semantic mining compound word processing method, device and equipment, the methods: to determine the M word of each sentence in the training corpus; in accordance with the emergence of M word order selection N segmentation to generate N dimensional compound words, M greater than or equal to 2, and the N is greater than or equal to 2 and less than or equal to M; N dimension string for compound words K hash operations, and obtain each hash result only corresponding query pre established random hash dictionary location in space, and according to the K dimensional vector, compound word floating-point numbers to generate N dimension corresponding to K hash operations results K position among them, K is an integer greater than 1; according to the K dimension N dimension vector all compound words selected to meet N target compound premise, the N target compound word input to the bag of words model for semantic mining. Thus, more and more granularity semantic features are introduced into the word bag model to further improve the effect of the word bag model.

【技术实现步骤摘要】
用于语义挖掘的复合词处理方法、装置及其设备
本专利技术涉及信息处理
,尤其涉及一种用于语义挖掘的复合词处理方法、装置及其设备。
技术介绍
人工智能(ArtificialIntelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。目前,在文本语义相关性匹配任务中,常见的词袋(BagofWords)模型有着广泛的应用。相关技术中,采用Bigram(二元语法)统计训练语聊中相邻两个词的出现概率,通过T-statics统计排序,得到某两个词同时出现的可能性,从而对较大可能性同时出现的两个词进行捆绑得到的复合词作为新的语义特征嵌入到词向量空间,并输入给词袋模型。然而,对于每一批新的训练语料都需要重新统计其Bigram的T-statics形成Bigram词表,然后才能开始对词袋模型训练,从而造成较大的训练开销,以及仅仅将两个词进行捆绑得到的复合词作为新的语义特征嵌入到词向量空间,并输入给词袋模型,影响词袋模型的效果。
技术实现思路
本专利技术的目的旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种用于语义挖掘的复合词处理方法,用于解决现有技术中的语料训练成本高,以及为了提升词袋模型效果,需要引入更多的二元捆绑词,影响内存性能;或者是仅仅将两个词进行捆绑得到的复合词作为新的语义特征嵌入到词向量空间,并输入给词袋模型,影响词袋模型效果的问题。本专利技术的第二个目的在于提出一种用于语义挖掘的复合词处理装置。本专利技术的第三个目的在于提出一种计算机设备。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种用于语义挖掘的复合词处理方法,所述方法包括以下步骤:确定训练语料中每句话的M个分词;按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将所述N维目标复合词输入给词袋模型进行语义挖掘。本专利技术实施例的用于语义挖掘的复合词处理方法,通过确定训练语料中每句话的M个分词,接着按照M个分词的出现顺序选择N个分词生成N维复合词,,并对N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成N维复合词的K维词向量,最后根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将N维目标复合词输入给词袋模型进行语义挖掘。由此,可以直接对语料进行训练,降低语料训练成本,以及可以获取N维目标复合词输入给词袋模型进行语义挖掘,在不影响内存性能的同时将更多更大粒度的语义特征引入词袋模型,进一步提升词袋模型的效果。为达上述目的,本专利技术第二方面实施例提出了一种用于语义挖掘的复合词处理装置,所述装置包括:确定模块,用于确定训练语料中每句话的M个分词;第一生成模块,用于按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;第一处理模块,用于对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;筛选模块,用于根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词;挖掘模块,用于将所述N维目标复合词输入给词袋模型进行语义挖掘。本专利技术实施例的用于语义挖掘的复合词处理装置,通过确定训练语料中每句话的M个分词,接着按照M个分词的出现顺序选择N个分词生成N维复合词,,并对N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成N维复合词的K维词向量,最后根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将N维目标复合词输入给词袋模型进行语义挖掘。由此,可以直接对语料进行训练,降低语料训练成本,以及可以获取N维目标复合词输入给词袋模型进行语义挖掘,在不影响内存性能的同时将更多更大粒度的语义特征引入词袋模型,进一步提升词袋模型的效果。为达上述目的,本专利技术第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如一种用于语义挖掘的复合词处理方法,所述方法包括:确定训练语料中每句话的M个分词;按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将所述N维目标复合词输入给词袋模型进行语义挖掘。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由处理器被执行时,使得能够执行一种用于语义挖掘的复合词处理方法,所述方法包括:确定训练语料中每句话的M个分词;按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将所述N维目标复合词输入给词袋模型进行语义挖掘。为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种用于语义挖掘的复合词处理方法,所述方法包括:确定训练语料中每句话的M个分词;按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将所述N维目标复合词输入给词袋模型进行语义挖掘本文档来自技高网...
用于语义挖掘的复合词处理方法、装置及其设备

【技术保护点】
一种用于语义挖掘的复合词处理方法,其特征在于,包括以下步骤:确定训练语料中每句话的M个分词;按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将所述N维目标复合词输入给词袋模型进行语义挖掘。

【技术特征摘要】
1.一种用于语义挖掘的复合词处理方法,其特征在于,包括以下步骤:确定训练语料中每句话的M个分词;按照所述M个分词的出现顺序选择N个分词生成N维复合词,其中,M大于等于2,且N大于等于2且小于等于M;对所述N维复合词的字符串进行K次哈希运算,查询预先建立的随机哈希字典空间中获取与每次哈希运算结果唯一对应的位置,并根据与K次哈希运算结果对应的K个位置的浮点数字生成所述N维复合词的K维词向量,其中,K为大于1的整数;根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,将所述N维目标复合词输入给词袋模型进行语义挖掘。2.如权利要求1所述的方法,其特征在于,所述根据所有N维复合词的K维词向量筛选出满足预设条件的N维目标复合词,包括:将每个N维复合词的K维词向量输入到预设的线性回归模型中,获取表示每个N维复合词重要程度的权重;根据每个N维复合词的K维词向量和对应权重,获取每个N维复合词的K维加权词向量;根据所有N维复合词的K维加权词向量筛选出满足预设条件的N维目标复合词。3.如权利要求2所述的方法,其特征在于,所述根据每个N维复合词的K维词向量和对应权重,获取每个N维复合词的K维加权词向量,包括:计算每个N维复合词的K维词向量和对应权重的乘积,获取每个N维复合词的K维加权词向量。4.如权利要求2所述的方法,其特征在于,在所述确定训练语料中每句话的M个分词之后,还包括:按照所述M个分词的出现顺序选择2个分词生成二维复合词;对所述二维复合词的字符串进行计算获取计算结果,查询原始词向量字典空间,获取与所述计算结果对应的唯一位置,应用与所述位置对应的数字生成所述二维复合词的K维词向量,其中,K为大于1的整数;所述根据所有N维复合词的K维加权词向量筛选出满足预设条件的N维目标复合词,包括:将所述二维复合词的K维词向量和所述所有N维复合词的K维加权词向量加和,根据加和结果筛选出满足预设条件的N维目标复合词。5.如权利要求1-4任一所述的方法,其特征在于,所述将所述N...

【专利技术属性】
技术研发人员:陈徐屹冯仕堃朱志凡何径舟朱丹翔曹宇慧
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1