一种获取词向量的方法和装置制造方法及图纸

技术编号:14525132 阅读:235 留言:0更新日期:2017-02-02 03:40
本发明专利技术公开了一种获取词向量的方法和装置,属于计算机技术领域。所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。采用本发明专利技术,可以提高词向量的语义的准确度。

【技术实现步骤摘要】

本专利技术涉及计算机
,特别涉及一种获取词向量的方法和装置
技术介绍
随着计算机技术的发展,计算机的应用越来越广泛,功能也越来越强大。其中,信息检索功能是人们常用的功能之一。人们可以在计算机中输入待检索的问题,计算机则可以将该问题发送给相应的服务器,服务器中可以预先存储多个问题,以及相应的答案,服务器接收到计算机发送的问题后,可以确定该问题所包含的词语的词向量,根据确定出的词向量将该问题和预先存储的问题进行语义匹配,将匹配度最高的问题的答案反馈给计算机。服务器中可以预先存储大量的语句,以及这些语句所包含的词语,对于语句库中的每个词语,服务器可以获取包含该词语的语句,进而在这些语句中,获取与词语相邻的上下文词语,基于使词语与上下文词语的关联度之和最大的原则,计算每个词语的词向量。在实现本专利技术的过程中,专利技术人发现现有技术至少存在以下问题:在确定词语的词向量时,是基于使该词语与上下文词语的关联度之和最大的原则,计算该词语的词向量,然而在实际中,经常会出现同一语句中的两个词语实际不相关的情况,因此,在这两个词语的关联度最大时,训练得到词向量,会使得训练得到的词向量的语义的准确度较差。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种获取词向量的方法和装置。所述技术方案如下:第一方面,提供了一种获取词向量的方法,所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。第二方面,提供了一种获取词向量的装置,所述装置包括:获取模块,用于获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;建立模块,用于将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;训练模块,用于根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。本专利技术实施例提供的技术方案带来的有益效果是:本专利技术实施例中,获取语句库中包含的每个待分析词语在语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合,将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型,根据训练模型,基于使关联度的总和最大的原则,对训练变量进行训练,得到每个待分析词语的词向量,这样,可以根据待分析词语的类型对词向量进行训练,使得同一类型的词语的词向量的关联度较大,从而可以提高词向量的语义的准确度。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种获取词向量的方法流程图;图2是本专利技术实施例提供的一种获取词向量的方法示意图;图3是本专利技术实施例提供的一种获取词向量的方法示意图;图4是本专利技术实施例提供的一种获取词向量的装置结构示意图;图5是本专利技术实施例提供的一种服务器的结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。实施例一本专利技术实施例提供了一种获取词向量的方法,如图1所示,该方法的处理流程可以包括如下的步骤:步骤101,获取语句库中包含的每个待分析词语在语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合。步骤102,将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型。步骤103,根据训练模型,基于使关联度的总和最大的原则,对训练变量进行训练,得到每个待分析词语的词向量。本专利技术实施例中,获取语句库中包含的每个待分析词语在语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合,将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型,根据训练模型,基于使关联度的总和最大的原则,对训练变量进行训练,得到每个待分析词语的词向量,这样,可以根据待分析词语的类型对词向量进行训练,使得同一类型的词语的词向量的关联度较大,从而可以提高词向量的语义的准确度。实施例二本专利技术实施例提供了一种获取词向量的方法,该方法的执行主体为服务器。其中,该服务器可以是社区问答网站或应用的服务器,该服务器中可以设置有处理器和存储器,处理器可以用于建立训练模型,还可以用于根据训练模型,基于使关联度的总和最大的原则,对训练变量进行训练,存储器可以用于存储下述处理过程中需要的数据以及产生的数据,收发器可以用于接收和发送数据。下面将结合具体实施方式,对图1所示的处理流程进行详细的说明,内容可以如下:步骤101,获取语句库中包含的每个待分析词语在语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合。在实施中,服务中可以预先存储有语句库,该语句库中可以包含多个语句,每个语句中可以包含一个或多个词语,服务器可以获取这些语句中包含的全部词语,作为待分析词语。在语句库中,每个语句都可以对应有其所属的类型,服务器可以将每个语句与其对应的类型进行存储,建立语句与类型的对应关系。对于语句中所包含的各词语(即各待分析词语),该语句所属的类型,即为该语句中所包含的待分析词语的类型。对于某个待分析词语(可称为待分析词语wk),可能会存在多个语句都包含有待分析词语wk,因此,这些句子的类型,都可以是待分析词语wk所属的类型,如果这些语句对应有多个类型,则待分析词语wk所属的类型为多个。待分析词语wk所属的多个类型,可以组成待分析词语wk对应的类型集合。例如,对于待分析词语“苹果”,其对应的语句有:1、苹果是一种常见的水果;2、苹果手机的维修应该去哪;3、电影苹果在哪里下载。其中,语句1对应的类型为饮食,语句2对应的类型为电器,语句3对应的类型为影视,则待分析词语“苹果”对应的类型为饮食、电器和影视,即“苹果”对应的类型集合中的类型为饮食、电器和影视。对于任一待分析词语,服务器可以在语句库中确定包含有该待分析词语的语句,进而可以根据语句与类型的对应关系,确定这些语句对应的类型,进而可以确定该待分析词语所属的类型,从而可以得到该待分析词语对应的类型集合。对于每个待分析词语,服务器都可以进行上述处理,从而可以得到每个待分析词语对应的类型集合。步骤102,将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型。在实施中,语句库中的每个待分析词语都可以对应有词向量,其中,本文档来自技高网...

【技术保护点】
一种获取词向量的方法,其特征在于,所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。

【技术特征摘要】
1.一种获取词向量的方法,其特征在于,所述方法包括:获取语句库中包含的每个待分析词语在所述语句库中所属的各语句的预设的类型,得到每个待分析词语对应的类型集合;将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型;根据所述训练模型,基于使所述关联度的总和最大的原则,对所述训练变量进行训练,得到所述每个待分析词语的词向量。2.根据权利要求1所述的方法,其特征在于,所述将每个待分析词语的词向量设置为训练变量,根据每个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型,包括:将每个待分析词语的词向量设置为训练变量,根据所述每个待分析词语对应的类型集合和词向量,以及在所述语句库中,与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型。3.根据权利要求2所述的方法,其特征在于,所述将每个待分析词语的词向量设置为训练变量,根据所述每个待分析词语对应的类型集合和词向量,以及在所述语句库中,与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型,包括:将每个待分析词语的词向量设置为训练变量,根据所述每个待分析词语对应的词向量,以及在所述语句库中,与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的词向量,建立各待分析词语之间的相似度模型;根据所述相似度模型、所述每个待分析词语对应的类型集合,以及在所述语句库中,与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合,建立各待分析词语之间关联度的总和的计算模型,作为训练模型。4.根据权利要求3所述的方法,其特征在于,所述根据所述相似度模型、所述每个待分析词语对应的类型集合,以及在所述语句库中,与所述每个待分
\t析词语在语句中相邻的预设数目个待分析词语对应的类型集合,建立各待分析词语之间关联度的总和的计算模型,作为训练模型,包括:在所述语句库中,确定与所述每个待分析词语在语句中相邻的预设数目个待分析词语;根据每个待分析词语对应的类型集合中包含的类型,对所述每个待分析词语,分别确定其与对应的相邻的预设数目个待分析词语中每个词语所具有的相同的类型的数目;根据所述相似度模型,以及所述每个待分析词语与对应的相邻的预设数目个待分析词语中每个词语所具有的相同的类型的数目,建立各待分析词语之间关联度的总和的计算模型,作为训练模型。5.根据权利要求2所述的方法,其特征在于,所述将每个待分析词语的词向量设置为训练变量,根据所述每个待分析词语对应的类型集合和词向量,以及在所述语句库中,与所述每个待分析词语在语句中相邻的预设数目个待分析词语对应的类型集合和词向量,建立各待分析词语之间关联度的总和的计算模型,作为训练模型,包括:将每个待分析词语的词向量设置为训练变量,根据所述每个待分析词语对应的词向量,以及在所述语句库中,与所述每个待分析词语在语句中相邻的预设数目个待分析...

【专利技术属性】
技术研发人员:周光有张小鹏肖磊蒋杰管刚刘婷婷
申请(专利权)人:华中师范大学腾讯科技深圳有限公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1