用于为文本数据匿名化生成参考数据结构的方法和系统技术方案

技术编号：36616015 阅读：15 留言：0更新日期：2023-02-15 00:22

一种使用机器学习为K匿名模型自动生成参考数据结构的方法和系统。矢量空间从参考文本数据生成，其中，所述矢量空间由表示所述参考文本词的语义含义的数值矢量定义。输入文本词是使用所述矢量空间转换为数值矢量的。词簇是根据所述输入文本词之间的语义相似性形成的，其中，输入文本词对之间的语义相似性由从数值矢量对确定的度量值表示。所述词簇定义所述参考数据结构的节点。文本标签应用于所述参考数据结构的每个节点，其中，所述文本标签表示所述词簇的元素共享的语义含义。述词簇的元素共享的语义含义。述词簇的元素共享的语义含义。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于为文本数据匿名化生成参考数据结构的方法和系统
[0001]相关申请案的交叉引用
[0002]本申请要求于2020年6月26日提交的专利技术名称为“用于为文本数据匿名化生成参考数据结构的方法和系统”的美国专利申请序列号16/913,711的优先权，该美国专利申请的内容通过引用全部并入本文。

[0003]本专利技术涉及生成参考数据结构的方法和系统，具体地涉及生成用于文本数据匿名化的参考数据结构的方法和系统。

技术介绍

[0004]随着技术的出现，所有学科的数据生成都以前所未有的速度增长。至少随着数据量的迅速增加而带来的主要挑战之一是提供数据隐私。数据匿名化是可用于保护隐私和确保防止个人身份或其敏感信息泄露的技术之一。
[0005]用于实现数据匿名化的方法之一是K匿名模型，广义上讲，它是一种泛化技术，用于描述匿名的数据集级别。K匿名模型假设给定数据集中的记录可以是结构化格式，以表的形式排列，其中行表示单个记录，列包含每个记录的属性。匿名化的过程涉及用不太具体的广义术语替换作为特定标识符的属性值。因此，K匿名模型的主要目标是转换数据集，使得记录与其对应实体之间的关联不能以大于1/K的概率确定(K是记录的数量)。为此，任何K匿名模型都要求将数据集中的记录划分为簇集，簇集中的每个簇至少包含K个记录，以便每个记录至少与(K
–
1)个其它记录无区分。为了提高数据质量，还期望给定簇中的记录也应尽可能彼此相似。当簇中的记录被修改为具有相同的广义词语时，这将有助于减少数据失真。
[00...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于为包括多个输入文本词的输入文本数据生成参考数据结构的方法，其特征在于，所述方法包括：从包括多个参考文本词的参考文本数据生成矢量空间，其中，所述矢量空间由表示所述参考文本词的语义含义的数值矢量定义；使用所述矢量空间将所述多个输入文本词转换为相应的数值矢量；根据所述输入文本词之间的语义相似性将所述多个输入文本词形成词簇，所述词簇定义所述参考数据结构的相应节点，输入文本词对之间的语义相似性由从相应的数值矢量对确定的相应度量值表示，所述度量值用于确定是否满足聚类准则；将文本标签应用于所述参考数据结构的每个节点，所述文本标签表示所述词簇的元素共享的语义含义；存储所述参考数据结构。2.根据权利要求1所述的方法，其特征在于，还包括，对于所述输入文本数据的每个给定词，用所述给定词所属的词簇的文本标签替换所述给定词。3.根据权利要求1或2所述的方法，其特征在于，所述度量值是欧氏距离、平方欧氏距离、曼哈顿距离、最大距离和马氏距离中的一个。4.根据权利要求1至3中任一项所述的方法，其特征在于，所述将所述输入文本数据的所述多个词形成词簇还包括：初始化所述词簇，使得从所述输入文本数据的所述多个词转换的多个根词中的每个根词形成所述词簇中的每个词簇的元素；迭代地形成所述词簇，每次迭代包括：基于词簇对中的每个词簇的数值矢量，确定所述每个词簇对之间的度量值；当从所述词簇中的两个词簇确定的度量值满足聚类准则时，将所述两个词簇合并为单个词簇。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述将所述输入文本数据的所述多个词形成词簇还包括：初始化包括从所述输入文本数据的所述多个词生成的所有根词的单个词簇，所述单个词簇被定义为父簇；迭代地形成所述词簇，每次迭代包括：通过应用扁平聚类算法从所述父簇中识别潜在词簇；将所述潜在词簇中的一个潜在词簇从所述父簇中分离，以形成新的词簇。6.根据权利要求1至5中任一项所述的方法，其特征在于，所述聚类准则是以下中的一个：最大链接聚类、最小聚类、非权重平均链接聚类、加权平均链接聚类、最小能量聚类、所有簇内方差之和、Ward准则、V
‑
链接、图度链接和某一簇描述符的增量。7.根据权利要求1至6中任一项所述的方法，其特征在于，所述文本标签是所述词簇的所述元素的公共下位词。8.根据权利要求7所述的方法，其特征在于，所述输入文本数据是第一语言，所述方法还包括：将所述输入文本数据中的词从所述第一语言翻译为第二语言；使用所述翻译后的所述第二语言的词确定所述第二语言的公共下位词；
将所述第二语言的所述公共下位词翻译为所述第一语言，所述翻译后的所述第一语言的词语用作所述词簇的所述文本标签。9.根据权利要求1至8中任一项所述的方法，其特征在于，所述生成所述矢量空间还包括：收集文档语料库，以形成所述参考文本数据；将所述参考文本数据的所述多个词转换为根词；将所述根词映射到所述数值矢量。10.根据权利要求9所述的方法，其特征在于，所述将所述参考文本数据的所述多个词转换为根词还包括：格式化所述参考文本数据的所述多个词，以删除对所述参考文本词的所述语义含义无用的数据；将所述格式化后的多个词分离为符号(token)；将所述符号归一化为根词。11.根据权利要求10所述的方法，其特征在于，所述将所述符号归一化为根词还包括以下中的至少一个：从所述符号截断词缀；将所述符号转换为基本形式。12.一种系统，其特征在于，包括处理单元和存储指令的存储器，所述指令当由所述处理单元执行时，使所述系统：从包括多个参考文本词的参考文本数据生成矢量空间，其...

【专利技术属性】
技术研发人员：罗兹贝赫，
申请(专利权)人：华为云计算技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人