用于为文本数据匿名化生成参考数据结构的方法和系统技术方案

技术编号:36616015 阅读:15 留言:0更新日期:2023-02-15 00:22
一种使用机器学习为K匿名模型自动生成参考数据结构的方法和系统。矢量空间从参考文本数据生成,其中,所述矢量空间由表示所述参考文本词的语义含义的数值矢量定义。输入文本词是使用所述矢量空间转换为数值矢量的。词簇是根据所述输入文本词之间的语义相似性形成的,其中,输入文本词对之间的语义相似性由从数值矢量对确定的度量值表示。所述词簇定义所述参考数据结构的节点。文本标签应用于所述参考数据结构的每个节点,其中,所述文本标签表示所述词簇的元素共享的语义含义。述词簇的元素共享的语义含义。述词簇的元素共享的语义含义。

【技术实现步骤摘要】
【国外来华专利技术】用于为文本数据匿名化生成参考数据结构的方法和系统
[0001]相关申请案的交叉引用
[0002]本申请要求于2020年6月26日提交的专利技术名称为“用于为文本数据匿名化生成参考数据结构的方法和系统”的美国专利申请序列号16/913,711的优先权,该美国专利申请的内容通过引用全部并入本文。


[0003]本专利技术涉及生成参考数据结构的方法和系统,具体地涉及生成用于文本数据匿名化的参考数据结构的方法和系统。

技术介绍

[0004]随着技术的出现,所有学科的数据生成都以前所未有的速度增长。至少随着数据量的迅速增加而带来的主要挑战之一是提供数据隐私。数据匿名化是可用于保护隐私和确保防止个人身份或其敏感信息泄露的技术之一。
[0005]用于实现数据匿名化的方法之一是K匿名模型,广义上讲,它是一种泛化技术,用于描述匿名的数据集级别。K匿名模型假设给定数据集中的记录可以是结构化格式,以表的形式排列,其中行表示单个记录,列包含每个记录的属性。匿名化的过程涉及用不太具体的广义术语替换作为特定标识符的属性值。因此,K匿名模型的主要目标是转换数据集,使得记录与其对应实体之间的关联不能以大于1/K的概率确定(K是记录的数量)。为此,任何K匿名模型都要求将数据集中的记录划分为簇集,簇集中的每个簇至少包含K个记录,以便每个记录至少与(K

1)个其它记录无区分。为了提高数据质量,还期望给定簇中的记录也应尽可能彼此相似。当簇中的记录被修改为具有相同的广义词语时,这将有助于减少数据失真。
[0006]一些属性,例如那些包含数值的属性,可以很容易地泛化为数值区间。其它属性,例如那些具有基于文本的值的属性,则更难泛化。通常,当将K匿名应用于包含基于文本的属性的数据集时,部分或所有属性的文本值将被泛化并替换为类似的值,例如,语义一致但不太具体。
[0007]但是,过度泛化可能会加剧数据失真。可用于增强K匿名实现的技术之一是从数据生成参考数据结构,例如分类层次树。该参考数据结构可以将相似的实体聚类在一起,方式为使得一个簇中的实体彼此之间比其它簇中的其它实体更相似。更重要的是,参考数据结构中的每个簇都可以用一个广义词语来标识,该词语也可以作为一个有意义的名称来表示整个簇,并且可以用于替换同一簇的任何成员。然后,相同参考数据结构级别的簇的广义词语可以进一步泛化到更高级别,从而有助于减少数据失真。
[0008]目前,K匿名模型的参考数据结构通常是手动生成的,这是一项耗时的任务。每个新领域都需要不同的参考数据结构,需要每个领域的丰富专业知识来生成所需的广义词语。用于不同领域的预制参考数据结构可能需要与数据集一起提供,这增加了数据大小。
[0009]此外,还需要十分了解关于词分类以及词和短语的语义含义。为文本数据生成预先存在的参考数据结构的一个重大挑战是对具有多个上下文相关含义的词进行分组。
[0010]因此,需要一种改进的K匿名参考数据结构生成方法和系统。

技术实现思路

[0011]在各种示例中,在至少一个方面中,本专利技术描述了用于为基于文本的数据自动生成K匿名参考数据结构的方法。所公开的方法可以利用机器学习技术生成矢量空间,所述矢量空间可用于将输入文本数据转换为数值,并自动聚类类似的数据记录,并生成参考数据结构,该参考数据结构具有针对每个簇的有意义的标识符,其中,所述标识符可以在语义上表示簇。
[0012]在另一方面中,本文公开的方法可以自动生成K匿名参考数据结构,并不限于英语,并且可以能够支持多种语言的基于文本的数据。
[0013]在又一个方面中,自动生成数据的参考数据结构的方法可以节省处理成本和/或无需密集的人力劳动。具体来说,本文公开的方法可以不需要手动创建参考数据结构所要求的时间密集型手动劳动。此外,与现有技术相比,根据本专利技术的自动生成的参考数据结构也可以在较短的时间内更新(例如,以反映更新的文本语料库)。
[0014]在又一个方面中,通过在任何给定的文本上下文上重新训练矢量空间(表示文本序列的潜在代码空间),新的或附加信息(例如,文本序列的新语义含义)可以相对容易地在更新的参考数据结构中表示。
[0015]在另一方面中,根据本专利技术生成的参考数据结构可以根据需要生成,而不需要将额外的文件提供到使用K匿名进行匿名化的客户端。
[0016]在另一方面中,根据本专利技术的方法可以基于输入文本数据生成参考数据结构,而不需要为不同语义上下文创建大的参考数据结构。这可以使得参考数据结构的大小能够减小(与现有技术相比),这可以用于增强其搜索能力(例如,需要更少的处理资源来执行参考数据的搜索)。
[0017]在另一方面中,本专利技术涉及一种用于为包括多个输入文本词的输入文本数据生成参考数据结构的方法。所述方法包括:从包括多个参考文本词的参考文本数据生成矢量空间,其中,所述矢量空间由表示所述参考文本词的语义含义的数值矢量定义;使用所述矢量空间将所述多个输入文本词转换为相应的数值矢量;根据所述输入文本词之间的语义相似性将所述多个输入文本词形成词簇,所述词簇定义所述参考数据结构的相应节点,输入文本词对之间的语义相似性由从相应的数值矢量对确定的相应度量值表示,所述度量值用于确定是否满足聚类准则;将文本标签应用于所述参考数据结构的每个节点,所述文本标签表示所述词簇的元素共享的语义含义;存储所述参考数据结构。
[0018]在上述任一项中,所述方法可以包括,对于所述输入文本数据的每个给定词,用所述给定词所属的词簇的文本标签替换所述给定词。
[0019]在上述任一项中,所述度量值可以是欧氏距离、平方欧氏距离、曼哈顿距离、最大距离和马氏距离中的一个。
[0020]在上述任一项中,所述将所述输入文本数据的所述多个词形成词簇可以包括:初始化所述词簇,使得从所述输入文本数据的所述多个词转换的多个根词中的每个根词形成所述词簇中的每个词簇的元素;迭代地形成所述词簇,每次迭代包括:基于词簇对中的每个词簇的数值矢量,确定所述每个词簇对之间的度量值;当从所述词簇中的两个词簇确定的
度量值满足聚类准则时,将所述两个词簇合并为单个词簇。
[0021]在上述任一项中,所述将所述输入文本数据的所述多个词形成词簇可以包括:初始化包括从所述输入文本数据的所述多个词生成的所有根词的单个词簇,所述单个词簇被定义为父簇;迭代地形成所述词簇,每次迭代包括:通过应用扁平聚类算法从所述父簇中识别潜在词簇;将所述潜在词簇中的一个潜在词簇从所述父簇中分离,以形成新的词簇。
[0022]在上述任一项中,所述聚类准则可以是以下中的一个:最大链接聚类、最小聚类、非权重平均链接聚类、加权平均链接聚类、最小能量聚类、所有簇内方差之和、Ward准则、V

链接、图度链接和某一簇描述符的增量。
[0023]在上述任一项中,所述文本标签可以是所述词簇的所述元素的公共下位词。
[0024]在上述任一项中,所述输入文本数据可以是第一语言,所述方法可以包括:将所述输入文本数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于为包括多个输入文本词的输入文本数据生成参考数据结构的方法,其特征在于,所述方法包括:从包括多个参考文本词的参考文本数据生成矢量空间,其中,所述矢量空间由表示所述参考文本词的语义含义的数值矢量定义;使用所述矢量空间将所述多个输入文本词转换为相应的数值矢量;根据所述输入文本词之间的语义相似性将所述多个输入文本词形成词簇,所述词簇定义所述参考数据结构的相应节点,输入文本词对之间的语义相似性由从相应的数值矢量对确定的相应度量值表示,所述度量值用于确定是否满足聚类准则;将文本标签应用于所述参考数据结构的每个节点,所述文本标签表示所述词簇的元素共享的语义含义;存储所述参考数据结构。2.根据权利要求1所述的方法,其特征在于,还包括,对于所述输入文本数据的每个给定词,用所述给定词所属的词簇的文本标签替换所述给定词。3.根据权利要求1或2所述的方法,其特征在于,所述度量值是欧氏距离、平方欧氏距离、曼哈顿距离、最大距离和马氏距离中的一个。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述将所述输入文本数据的所述多个词形成词簇还包括:初始化所述词簇,使得从所述输入文本数据的所述多个词转换的多个根词中的每个根词形成所述词簇中的每个词簇的元素;迭代地形成所述词簇,每次迭代包括:基于词簇对中的每个词簇的数值矢量,确定所述每个词簇对之间的度量值;当从所述词簇中的两个词簇确定的度量值满足聚类准则时,将所述两个词簇合并为单个词簇。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述将所述输入文本数据的所述多个词形成词簇还包括:初始化包括从所述输入文本数据的所述多个词生成的所有根词的单个词簇,所述单个词簇被定义为父簇;迭代地形成所述词簇,每次迭代包括:通过应用扁平聚类算法从所述父簇中识别潜在词簇;将所述潜在词簇中的一个潜在词簇从所述父簇中分离,以形成新的词簇。6.根据权利要求1至5中任一项所述的方法,其特征在于,所述聚类准则是以下中的一个:最大链接聚类、最小聚类、非权重平均链接聚类、加权平均链接聚类、最小能量聚类、所有簇内方差之和、Ward准则、V

链接、图度链接和某一簇描述符的增量。7.根据权利要求1至6中任一项所述的方法,其特征在于,所述文本标签是所述词簇的所述元素的公共下位词。8.根据权利要求7所述的方法,其特征在于,所述输入文本数据是第一语言,所述方法还包括:将所述输入文本数据中的词从所述第一语言翻译为第二语言;使用所述翻译后的所述第二语言的词确定所述第二语言的公共下位词;
将所述第二语言的所述公共下位词翻译为所述第一语言,所述翻译后的所述第一语言的词语用作所述词簇的所述文本标签。9.根据权利要求1至8中任一项所述的方法,其特征在于,所述生成所述矢量空间还包括:收集文档语料库,以形成所述参考文本数据;将所述参考文本数据的所述多个词转换为根词;将所述根词映射到所述数值矢量。10.根据权利要求9所述的方法,其特征在于,所述将所述参考文本数据的所述多个词转换为根词还包括:格式化所述参考文本数据的所述多个词,以删除对所述参考文本词的所述语义含义无用的数据;将所述格式化后的多个词分离为符号(token);将所述符号归一化为根词。11.根据权利要求10所述的方法,其特征在于,所述将所述符号归一化为根词还包括以下中的至少一个:从所述符号截断词缀;将所述符号转换为基本形式。12.一种系统,其特征在于,包括处理单元和存储指令的存储器,所述指令当由所述处理单元执行时,使所述系统:从包括多个参考文本词的参考文本数据生成矢量空间,其...

【专利技术属性】
技术研发人员:罗兹贝赫
申请(专利权)人:华为云计算技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1