新词分类技术制造技术

技术编号：32612554 阅读：30 留言：0更新日期：2022-03-12 17:39

提供了用于识别与新词或未知的词语或名字相关联的属性的技术。可以为新词预测现实世界特点。为输入词语识别三元组并且为识别出的三元组计算词语嵌入模型向量值并将其录入到矩阵中。为最近名字识别三元组。基于输入词语的三元组和来自最近名字的三元组计算分类值并且将该分类值录入到矩阵中。卷积神经网络可以处理矩阵以识别与新词相关联的一个或多个特点。特点。特点。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】新词分类技术
[0001]对相关申请的交叉引用
[0002]本申请援引35U.S.C.
§
119(e)要求于2019年8月19日提交的标题为“NEOLOGISM CLASSIFICATION TECHNIQUES”的美国临时专利申请62/888,998的优先权，其全部内容出于所有目的通过引用并入本文。

[0003]本公开一般而言涉及数据分析和处理。更具体地，公开了用于分析和处理新词的技术。

技术介绍

[0004]大数据用户可以具有关于他们的客户的大量数据(例如，数据集)。用户可以包括数据集的用户，诸如公司。数据集可以是电子表格和表格的形式，并且可以包括有关客户的信息，诸如客户ID、名、姓氏、地址等。用户可以具有来自不同源的数据集。数据集可以包括姓名、人口统计和地理信息等。
[0005]如果可以根据数据集确定附加信息，那么数据集可以对用户更有用。例如，如果此类信息不容易获得，那么知道有关客户的附加信息(诸如性别、世代(generation)和其它人口统计信息)可能是有益的。
[0006]数据集可以包括以前从未见过的词语(例如，新词(neologism))。例如，客户的姓名可以是唯一的姓名或姓名的唯一拼写。另外，客户工作的公司的名字可以是未知的名字或编造的词语。确定从未见过的词语的附加信息是困难的，因为没有关于这些词语的可从中获得信息的现有信息(例如，属性、特点等)。
[0007]存在用于确定词语之间的相似性的技术。例如，给定未知的词语，可以找到包含在词语的语料库...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法，包括由包括处理器和存储器的服务器计算机接收包括第一字符串的输入词语；由服务器计算机确定输入词语的第一多个三元组；由服务器计算机为所确定的第一多个三元组计算词语嵌入向量值；由服务器计算机在矩阵中输入词语嵌入向量值；由服务器计算机确定多个最近名字，其中所述多个最近名字是具有与输入词语的第一字符串相似的第二字符串的名字；由服务器计算机确定最近名字的第二多个三元组；由服务器计算机确定输入词语的第一多个三元组与最近名字的第二多个三元组之间的最长公共子序列；由服务器计算机计算第一多个三元组的分类值；由服务器计算机更新矩阵以包括所计算的分类值；以及由服务器计算机通过卷积神经网络遍历更新后的矩阵，以确定输入词语的分类。2.根据权利要求1所述的方法，其中所述输入词语是新词。3.根据权利要求1所述的方法，其中计算分类值包括：从输入词语中识别第一多个三元组；从最近名字中识别第二多个三元组；将来自输入词语的第一多个三元组与来自最近名字的第二多个三元组进行比较；以及基于输入词语中的第一多个三元组与来自最近名字的第二多个三元组之间的匹配的数量来计算分类值。4.根据权利要求1所述的方法，其中计算分类值包括：为多个分类中的每个分类发起计数器；从输入词语的第一多个三元组中选择第一三元组；确定来自最近名字的第二多个三元组中的与输入词语的第一三元组匹配的一个或多个三元组；确定来自最近名字的第二多个三元组中的与输入词语的第一三元组匹配的所述一个或多个三元组的分类；对于与所确定的来自最近名字的第二多个三元组中的所述一个或多个三元组的分类对应的多个分类中的每个分类递增计数器；以及基于关于所确定的最近名字的数量的计数器的值来计算分类值。5.根据权利要求1所述的方法，其中根据输入词语的类型来训练词语嵌入向量模型。6.根据权利要求1所述的方法，其中训练词语嵌入模型以计算用于三元组的词语嵌入模型向量值。7.根据权利要求1所述的方法，其中第一多个三元组中的三元组包括来自输入词语的按连续次序的三个字母、字符或符号。8.根据权利要求1所述的方法，其中服务器计算机是数据丰富系统的新词分类服务器。9.根据权利要求1所述的方法，其中在为所确定的第一多个三元组计算向量值之后：发起矩阵；以及用所计算的词语嵌入向量值填充矩阵。
10.根据权利要求8所述的方法，其中在被配置为丰富输入词语的数据丰富系统的交互式用户界面上接收输入词语。11.根据权利要求10所述的方法，其中所述交互式用户界面被配置为显示对针对一个或多个输入词语执行新词分类的推荐。12.一种服务器计算机，包括：处理器；存储器；计算机可读介质，耦合到处理器，该计算机可读介质存储能够由所述处理器执行的用于实现方法的指令，该方法包括：接收包括第一字符串的输入词语；确定输入词语的第一多个三元组；为所确定的第一多个三元组计算词语嵌入向量值；在矩阵中输入词语嵌入向量值；确定多个最近名字，其中所述多个最近名字是具有与输入词语的第一字符串相似的第二字符串的名字；确定最近名字的第二多个三元组；确定输入词语的第一多个...

【专利技术属性】
技术研发人员：M，
申请(专利权)人：甲骨文国际公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人