当前位置: 首页 > 专利查询>奥多比公司专利>正文

词向量的在线字典扩展制造技术

技术编号:22218986 阅读:71 留言:0更新日期:2019-09-30 01:17
本发明专利技术公开了词向量的在线字典扩展。描述了用于词向量的在线字典扩展的技术和系统,其被配置为提供现有词向量字典的在线扩展,并因此克服常规技术的失败。在一个示例中,字典扩展系统由计算系统采用以扩展词向量字典,从而以在线方式并入新词。关于现有字典中的词来针对新词估计共现信息。这通过基于现有字典和针对新词的稀疏共现信息来估计关于大的词集的共现信息而完成。所估计的共现信息被用于:通过将所估计的共现信息投射到现有的词向量字典上来估计与新词相关联的新词向量。通过合并原始字典和所估计的新词向量,经扩展的字典被创建。

On-line Dictionary Extension of Word Vector

【技术实现步骤摘要】
词向量的在线字典扩展
本公开总体涉及词向量,更具体地涉及词向量的在线字典扩展。
技术介绍
词向量是用于以连续向量形式表示词和短语的有用嵌入。然而,利用计算设备训练词向量嵌入是耗时的,并且一旦嵌入被训练,常规技术就不能向嵌入添加新词。在词向量嵌入中包括新颖的词的常规技术要求整个嵌入被重新训练。这种暴力策略在计算上是困难且低效的。另外,利用计算设备重新训练词向量嵌入为先前被包括的词生成新词向量,并且不能确保先前所计算的词向量保持不变。重新训练整个嵌入和改变先前所计算的词向量将破坏例如利用词向量的计算系统(诸如用于自然语言处理的神经网络)的功能。因此,用于处理通过计算设备将新颖的词添加到词向量嵌入的常规技术是低效的、不灵活的,并且妨碍系统适应或并入新颖的词。这使得在词向量嵌入上建立的计算系统(例如自然语言处理系统)严格地受限于在最初建立系统时使用的词汇。
技术实现思路
描述了用于词向量的在线字典扩展的技术和系统,其被配置为提供现有词向量字典的在线扩展,并因此克服了常规技术的失败。在一个示例中,字典扩展系统由计算系统采用,以扩展词向量的字典,从而以在线方式并入新词。例如,这可以由计算设备的自然语本文档来自技高网...

【技术保护点】
1.一种在数字介质环境中用于扩展词向量字典的、由至少一个计算设备实现的方法,所述方法包括:由所述至少一个计算设备获得与词集相关联的词向量集;由所述至少一个计算设备接收未被包括在所述词集中的输入词;由所述至少一个计算设备确定所述输入词与所述词集中的一个或多个词之间的关系;由所述至少一个计算设备基于来自所述词向量集的、与所述一个或多个词相对应的一个或多个词向量来近似与所述输入词相关联的新词向量;由所述至少一个计算设备生成包括所述词向量集和所述新词向量的新的词向量集,所述新的词向量集与包括所述词集和所述输入词的新的词集相关联;以及由所述至少一个计算设备将所述新的词向量集传达到自然语言处理系统,以使所...

【技术特征摘要】
2018.03.19 US 15/924,7911.一种在数字介质环境中用于扩展词向量字典的、由至少一个计算设备实现的方法,所述方法包括:由所述至少一个计算设备获得与词集相关联的词向量集;由所述至少一个计算设备接收未被包括在所述词集中的输入词;由所述至少一个计算设备确定所述输入词与所述词集中的一个或多个词之间的关系;由所述至少一个计算设备基于来自所述词向量集的、与所述一个或多个词相对应的一个或多个词向量来近似与所述输入词相关联的新词向量;由所述至少一个计算设备生成包括所述词向量集和所述新词向量的新的词向量集,所述新的词向量集与包括所述词集和所述输入词的新的词集相关联;以及由所述至少一个计算设备将所述新的词向量集传达到自然语言处理系统,以使所述词向量集的实例被替换为所述新的词向量集的实例。2.根据权利要求1所述的方法,其中所述词向量集基于文本语料库内的词的共现而被预先计算。3.根据权利要求1所述的方法,其中所述词向量集的每个词向量包括测量关联和共现的逐点互信息。4.根据权利要求3所述的方法,其中所述逐点互信息基于一元语法统计或二元语法统计。5.根据权利要求4所述的方法,其中近似所述新词向量包括:近似逐点互信息。6.根据权利要求1所述的方法,其中在不对与所述词集相关联的新词向量进行确定的情况下,生成所述新的词向量集被执行。7.根据权利要求1所述的方法,其中所述词向量集基于文本语料库内的词的共现而被预先计算,所述输入词被定位在未被包括在所述文本语料库中的文档中,并且近似所述新词向量部分地基于所述输入词在所述文档内的共现。8.根据权利要求1所述的方法,其中所述词集包括第一语言的词,并且所述输入词是第二语言。9.在数字介质环境中用于扩展词向量字典的至少一种计算机可读介质,存储处理器可执行指令,所述处理器可执行指令响应于由处理系统进行执行,使得所述处理系统执行包括以下的操作:由所述至少一个计算设备基于将图像的图像特征映射到向量空间中来生成图像特征向量;由所述至少一个计算设备确定:所述图像特征向量与来自与词集相关联的词向量集的任何向量不对应;通过基于来自所述词向量集的、与新词具有确定关系的一个或多个词向量来近似与所述新词相关联的新词向量,扩展所述词向量集;由所述至少一个计算设备生成新的词向量集,所述新的词向量集包括所述词向量集和所述新词向量;以及基于...

【专利技术属性】
技术研发人员:林哲李英伟
申请(专利权)人:奥多比公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1