新词分类技术制造技术

技术编号:32612554 阅读:30 留言:0更新日期:2022-03-12 17:39
提供了用于识别与新词或未知的词语或名字相关联的属性的技术。可以为新词预测现实世界特点。为输入词语识别三元组并且为识别出的三元组计算词语嵌入模型向量值并将其录入到矩阵中。为最近名字识别三元组。基于输入词语的三元组和来自最近名字的三元组计算分类值并且将该分类值录入到矩阵中。卷积神经网络可以处理矩阵以识别与新词相关联的一个或多个特点。特点。特点。

【技术实现步骤摘要】
【国外来华专利技术】新词分类技术
[0001]对相关申请的交叉引用
[0002]本申请援引35U.S.C.
§
119(e)要求于2019年8月19日提交的标题为“NEOLOGISM CLASSIFICATION TECHNIQUES”的美国临时专利申请62/888,998的优先权,其全部内容出于所有目的通过引用并入本文。


[0003]本公开一般而言涉及数据分析和处理。更具体地,公开了用于分析和处理新词的技术。

技术介绍

[0004]大数据用户可以具有关于他们的客户的大量数据(例如,数据集)。用户可以包括数据集的用户,诸如公司。数据集可以是电子表格和表格的形式,并且可以包括有关客户的信息,诸如客户ID、名、姓氏、地址等。用户可以具有来自不同源的数据集。数据集可以包括姓名、人口统计和地理信息等。
[0005]如果可以根据数据集确定附加信息,那么数据集可以对用户更有用。例如,如果此类信息不容易获得,那么知道有关客户的附加信息(诸如性别、世代(generation)和其它人口统计信息)可能是有益的。
[0006]数据集可以包括以前从未见过的词语(例如,新词(neologism))。例如,客户的姓名可以是唯一的姓名或姓名的唯一拼写。另外,客户工作的公司的名字可以是未知的名字或编造的词语。确定从未见过的词语的附加信息是困难的,因为没有关于这些词语的可从中获得信息的现有信息(例如,属性、特点等)。
[0007]存在用于确定词语之间的相似性的技术。例如,给定未知的词语,可以找到包含在词语的语料库内的最相似的词语。但是,此类技术不提供准确的结果。例如,使用词语的训练语料库中包含的最相似的词语并不提供准确的结果,并且对未知的词语的推断出的属性是不准确的。具体而言,使用整个词语并不提供高度准确的结果。
[0008]因此,需要更准确的方法来识别未知的词语的特点。示例实施例解决了这些问题和其它问题。
[0009]其它实施例针对与本文描述的方法相关联的系统、设备和计算机可读介质。参考以下具体实施方式和附图可以获得对示例性实施例的性质和优点的更好理解。

技术实现思路

[0010]示例实施例被配置为对从未见过的词语或名字(例如,新词)的现实世界特点进行预测。
[0011]给定文本的主体(例如,数据集、电子表格等),可以存在以前从未见过的词语。例如,数据集中可以包括新名字或不同拼写的名字。作为另一个示例,可以创建新词或者可以创建词语的新变体。从未见过的词语或名字是当前未知其含义和/或与该词语或名字相关
联的特点的词语或名字。从未见过的词语或名字可以被称为新词。未知的词语或名字将在描述中称为未知的词语。
[0012]示例实施例丰富(enrich)了数据集,使得数据集信息可以更有用。例如,用户可以具有大型数据集(例如,大数据)。如果可以基于数据集确定附加信息和特点,那么可以使数据集更有用。示例实施例可以从未知的词语确定含义,从而使数据集更有用。数据集可以是电子表格的形式,其包括数据的列和行。数据集可以包括数据的列,其包括一个或多个新词。例如,指向名字的数据集的列可以包括一些以前从未见过的名字。
[0013]示例实施例可以基于未知的词语来解密附加信息。例如,示例实施例可以基于未知的名字来确定诸如行业、语言、性别、世代等特点。行业、语言、性别和世代被描述为示例,但是,可以根据数据集中的数据的类型(例如,名、公司名字等)为数据集确定其它特点和属性。
[0014]另外,示例实施例可以以高准确率确定与未知的词语相关联的特点和附加信息。因此,用户不必猜测分类。
[0015]特定名字或词语可以具有已知特点。例如,诸如“Alice”之类的名字可以关联为女性名字。具体而言,根据历史信息和先前的词语分析,诸如“爱丽丝”之类的名字已与女性相关联。但是,人可能会将他们的名字拼写为“Allys”。这可以是这种名字的第一实例,或者可以与该名字没有任何关联。因此,名字“Allys”可能不与特定特点相关联。除了名字,还可能存在以前从未见过的词语。可以创建新词或词语的新拼写,因此没有历史背景或关联。
[0016]示例实施例可以预测词语或名字来自哪种语言、基于名字(例如,公司名字)预测行业、以及基于人名预测性别。预测性别可能对市场细分分析中的聚合有用。
[0017]示例实施例可以基于未知的词语的拼写来推断含义。可以使用三元组来推断含义并且三元组可以用于提供关于未知的词语的信息。具体而言,可以通过将三字母三元组本身视为语言来确定未知的词语的含义。也就是说,可以基于词语内的三元组的次序来推断含义,与句子内的词语的次序传达含义的方式相似。例如,基于三元组和历史数据,可以确定以元音结尾的名字常常与女性相关联。
[0018]示例实施例通过神经网络(例如,Word2Vec)运行从训练集的词语中提取的三元组。另外,可以执行监督式学习以便对未知的词语的属性和特点进行预测。如上面所指示的,未知的词语的属性和特点(即,用于监督式学习的标签)可以包括词语所来自的语言、行业、性别、世代等。未知的词语的属性和特点包括可以为未知的词语确定的附加信息。因此,用户不仅具有例如名的数据集,而且用户还具有附加信息(例如,这些数据项的标签),诸如其客户的性别、其客户工作的行业等。从而使数据集对用户更有用。
附图说明
[0019]通过以下具体实施方式结合附图将容易理解本公开,其中相同的附图标记表示相同的元件,并且其中:
[0020]图1图示了根据一些示例实施例的分析环境的框图。
[0021]图2图示了根据一些示例实施例的数据丰富系统的新词分类服务器的框图。
[0022]图3图示了根据一些示例实施例的用于对新词进行分类的方法的流程图。
[0023]图4是根据一些示例实施例的用于对新词进行分类的变量的概览。
[0024]图5图示了根据一些示例实施例确定输入词语的三元组。
[0025]图6图示了根据一些示例实施例的具有三元组词语嵌入模型向量的矩阵。
[0026]图7图示了根据一些示例实施例的用于计算用于词语的向量的处理。
[0027]图8图示了根据一些示例实施例确定输入词语的最近(nearest)名字。
[0028]图9图示了根据一些示例实施例的表示队列的列表的表格。
[0029]图10图示了根据一些示例实施例的用于计算分类值的方法的流程图。
[0030]图11图示了根据一些示例实施例的用于计算分类值的方法的详细流程图。
[0031]图12图示了根据一些示例实施例的包括分类值的矩阵。
[0032]图13图示了根据一些示例实施例的卷积神经网络。
[0033]图14图示了根据一些示例实施例的用于执行新词分类的用户界面。
[0034]图15描绘了根据一些示例实施例的分布式系统的简化图。
[0035]图16图示了根据一些示例实施例的系统环境的一个或多个组件的简化框图,其中服务可以作为云服务被提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括由包括处理器和存储器的服务器计算机接收包括第一字符串的输入词语;由服务器计算机确定输入词语的第一多个三元组;由服务器计算机为所确定的第一多个三元组计算词语嵌入向量值;由服务器计算机在矩阵中输入词语嵌入向量值;由服务器计算机确定多个最近名字,其中所述多个最近名字是具有与输入词语的第一字符串相似的第二字符串的名字;由服务器计算机确定最近名字的第二多个三元组;由服务器计算机确定输入词语的第一多个三元组与最近名字的第二多个三元组之间的最长公共子序列;由服务器计算机计算第一多个三元组的分类值;由服务器计算机更新矩阵以包括所计算的分类值;以及由服务器计算机通过卷积神经网络遍历更新后的矩阵,以确定输入词语的分类。2.根据权利要求1所述的方法,其中所述输入词语是新词。3.根据权利要求1所述的方法,其中计算分类值包括:从输入词语中识别第一多个三元组;从最近名字中识别第二多个三元组;将来自输入词语的第一多个三元组与来自最近名字的第二多个三元组进行比较;以及基于输入词语中的第一多个三元组与来自最近名字的第二多个三元组之间的匹配的数量来计算分类值。4.根据权利要求1所述的方法,其中计算分类值包括:为多个分类中的每个分类发起计数器;从输入词语的第一多个三元组中选择第一三元组;确定来自最近名字的第二多个三元组中的与输入词语的第一三元组匹配的一个或多个三元组;确定来自最近名字的第二多个三元组中的与输入词语的第一三元组匹配的所述一个或多个三元组的分类;对于与所确定的来自最近名字的第二多个三元组中的所述一个或多个三元组的分类对应的多个分类中的每个分类递增计数器;以及基于关于所确定的最近名字的数量的计数器的值来计算分类值。5.根据权利要求1所述的方法,其中根据输入词语的类型来训练词语嵌入向量模型。6.根据权利要求1所述的方法,其中训练词语嵌入模型以计算用于三元组的词语嵌入模型向量值。7.根据权利要求1所述的方法,其中第一多个三元组中的三元组包括来自输入词语的按连续次序的三个字母、字符或符号。8.根据权利要求1所述的方法,其中服务器计算机是数据丰富系统的新词分类服务器。9.根据权利要求1所述的方法,其中在为所确定的第一多个三元组计算向量值之后:发起矩阵;以及用所计算的词语嵌入向量值填充矩阵。
10.根据权利要求8所述的方法,其中在被配置为丰富输入词语的数据丰富系统的交互式用户界面上接收输入词语。11.根据权利要求10所述的方法,其中所述交互式用户界面被配置为显示对针对一个或多个输入词语执行新词分类的推荐。12.一种服务器计算机,包括:处理器;存储器;计算机可读介质,耦合到处理器,该计算机可读介质存储能够由所述处理器执行的用于实现方法的指令,该方法包括:接收包括第一字符串的输入词语;确定输入词语的第一多个三元组;为所确定的第一多个三元组计算词语嵌入向量值;在矩阵中输入词语嵌入向量值;确定多个最近名字,其中所述多个最近名字是具有与输入词语的第一字符串相似的第二字符串的名字;确定最近名字的第二多个三元组;确定输入词语的第一多个...

【专利技术属性】
技术研发人员:M
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1