一种地产行业数据标准化方法、系统、设备及存储介质技术方案

技术编号:37598384 阅读:7 留言:0更新日期:2023-05-18 11:47
本发明专利技术实施例公开了一种地产行业数据标准化方法、系统、设备及存储介质,首先获取地产行业从业人员上报的第一线索内容,并从中提取出第一关键分词;对第一关键分词进行向量化处理,并对词向量进行归一化处理,得到归一化向量;对归一化向量分别进行第一聚类处理和第二聚类处理,根据第一聚类结果和第二聚类结果,得到综合聚类结果;基于综合聚类结果,构建标准标签库;利用标准标签库,对待标准化的第二线索内容进行映射处理,得到映射结果;根据映射结果,对标准标签库进行更新,得到更新后的标准标签库。本发明专利技术实施例通过地产行业数据标准化构建的标准标签库能够实现全面覆盖地产行业的业务场景,并且能够根据后续数据进行更新迭代。新迭代。新迭代。

【技术实现步骤摘要】
一种地产行业数据标准化方法、系统、设备及存储介质


[0001]本专利技术实施例涉及机器学习领域,具体涉及一种地产行业数据标准化方法、系统、设备及存储介质。

技术介绍

[0002]目前地产营销领域缺乏一套行之有效的数据标准化方案,一旦涉及需要进行数据标准化的业务场景,往往通过人工主观界定叠加产品设计标签来加以规避,直接导致可能出现产品功能无法有效匹配实际业务场景等一系列问题。
[0003]现有的地产数据标准化技术大多由业务人员根据个人经验构建标准标签集(标准化的标签集合),此类方案构建出的标准标签集很难做到全面地覆盖所有业务场景,容易出现实际业务场景和备选内容不一致的情况,并且由于过于依赖个人经验,导致后续的地产数据难以准确地映射至标准标签集中,不能快速准确地实现对标准标签集的更新迭代。

技术实现思路

[0004]为此,本专利技术实施例提供一种地产行业数据标准化方法、系统、设备及存储介质,以解决现有的地产数据标准化技术构建的标准标签集业务场景覆盖不全面和难以更新迭代的问题。
[0005]为了实现上述目的,本专利技术实施例提供如下技术方案:
[0006]根据本专利技术实施例的第一方面,提供了一种地产行业数据标准化方法,所述方法包括:
[0007]从数据库中获取地产行业从业人员上报的第一线索内容;
[0008]利用所述第一线索内容进行分词处理,得到分词结果,对所述分词结果进行过滤,得到过滤后的第一关键分词;
[0009]基于预设的词向量生成模型,对所述第一关键分词进行向量化处理,得到对应的第一词向量,对所述第一词向量进行归一化处理,得到各个归一化向量;
[0010]对所述归一化向量分别进行第一聚类处理和第二聚类处理,得到第一聚类结果和第二聚类结果,根据所述第一聚类结果和所述第二聚类结果,得到综合聚类结果;
[0011]基于所述综合聚类结果,构建标准标签库;
[0012]从待标准化的第二线索内容中提取出第二关键分词,利用所述标准标签库中的标准化标签,对所述第二关键分词进行映射处理,得到映射结果;
[0013]根据所述映射结果,对所述标准标签库进行更新,得到更新后的标准标签库。
[0014]进一步地,利用所述第一线索内容进行分词处理,得到分词结果,对所述分词结果进行过滤,得到过滤后的第一关键分词,包括:
[0015]利用所述第一线索内容进行第一分词处理,得到各个第一分词;
[0016]针对各个所述第一分词,根据所述第一分词的词频,计算出所述第一分词的第一TF

IDF值;
[0017]判断所述第一TF

IDF值是否大于第一预设过滤阈值;
[0018]若所述第一TF

IDF值小于或等于第一预设过滤阈值,则将所述第一TF

IDF值对应的第一分词废弃;
[0019]若所述TF

IDF值大于第一预设过滤阈值,则将所述第一TF

IDF值对应的第一分词作为第一关键分词。
[0020]进一步地,对所述归一化向量分别进行第一聚类处理和第二聚类处理,得到第一聚类结果和第二聚类结果,根据所述第一聚类结果和所述第二聚类结果,得到综合聚类结果,包括:
[0021]预先设定预设数量的聚类质心;
[0022]针对各个所述归一化向量,根据所述归一化向量与各个所述聚类质心的距离,将所述归一化向量纳入距离最近的聚类质心对应的第一聚类集合中,得到聚类完成的第一聚类集合;
[0023]判断所述第一聚类集合是否符合预设聚类标准;
[0024]若所述第一聚类集合不符合预设聚类标准,则针对各个所述第一聚类集合,根据所述第一聚类集合中的各个归一化向量,重新计算得到预设数量的聚类质心,并重新进行聚类;
[0025]若所述第一聚类集合符合预设聚类标准,则将各个所述第一聚类集合作为所述第一聚类结果。
[0026]进一步地,对所述归一化向量分别进行第一聚类处理和第二聚类处理,得到第一聚类结果和第二聚类结果,根据所述第一聚类结果和所述第二聚类结果,得到综合聚类结果,还包括:
[0027]将所有所述归一化向量映射至一维坐标系中,得到对应的向量坐标;
[0028]针对各个所述向量坐标,将当前向量坐标作为起始向量坐标,判断所述起始向量坐标与所述起始向量坐标的下一个向量坐标的距离是否小于预设距离;
[0029]若所述起始向量坐标与所述起始向量坐标的下一个向量坐标的距离小于预设距离,则生成第二聚类集合,将所述起始向量坐标和所述起始向量坐标的下一个向量坐标作为聚类向量坐标,将所述聚类向量坐标纳入所述第二聚类集合;
[0030]若所述起始向量坐标与所述起始向量坐标的下一个向量坐标的距离大于或等于预设距离,则不生成所述第二聚类集合;
[0031]根据各个所述聚类向量坐标之间的距离,计算得到所述第二聚类集合的第一标签密度;
[0032]将所述聚类向量坐标外的下一个向量坐标作为候选向量坐标,利用所述聚类向量坐标和所述候选向量坐标,计算得到第二标签密度;
[0033]判断所述第二标签密度与所述第一标签密度的比值是否大于或等于预设密度比例;
[0034]若所述第二标签密度与所述第一标签密度的比值大于或等于预设密度比例,则将所述候选向量坐标作为聚类向量坐标,并纳入所述第二聚类集合,并循环至将所述聚类向量坐标外的下一个向量坐标作为候选向量坐标;
[0035]若所述第二标签密度与所述第一标签密度的比值小于预设密度比例,则不将所述
候选向量坐标纳入所述第二聚类集合,得到完成聚类的第二聚类集合;
[0036]将各个所述完成聚类的第二聚类集合作为所述第二聚类结果;
[0037]根据预设聚类权重,利用所述第一聚类结果和所述第二聚类结果,得到所述综合聚类结果。
[0038]进一步地,基于所述综合聚类结果,构建标准标签库,包括:
[0039]生成初始标签库;
[0040]针对所述综合聚类结果中的各个聚类集合,在所述初始标签库中生成对应的标签集;
[0041]利用所述各个聚类集合中的归一化向量对应的第一关键分词作为标准化标签;
[0042]将所有所述标准化标签分别存入对应的标签集中,得到所述标准标签库。
[0043]进一步地,从待标准化的第二线索内容中提取出第二关键分词,利用所述标准标签库中的标准化标签,对所述第二关键分词进行映射处理,得到映射结果,包括:
[0044]利用待标准化的第二线索内容进行第二分词处理,得到第二分词;
[0045]针对各个所述第二分词,根据所述第二分词的词频,计算出所述第二分词的第二TF

IDF值;
[0046]判断所述第二TF

IDF值是否大于第二预设过滤阈值;
[0047]若所述第二TF

IDF值小本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种地产行业数据标准化方法,其特征在于,所述方法包括:从数据库中获取地产行业从业人员上报的第一线索内容;利用所述第一线索内容进行分词处理,得到分词结果,对所述分词结果进行过滤,得到过滤后的第一关键分词;基于预设的词向量生成模型,对所述第一关键分词进行向量化处理,得到对应的第一词向量,对所述第一词向量进行归一化处理,得到各个归一化向量;对所述归一化向量分别进行第一聚类处理和第二聚类处理,得到第一聚类结果和第二聚类结果,根据所述第一聚类结果和所述第二聚类结果,得到综合聚类结果;基于所述综合聚类结果,构建标准标签库;从待标准化的第二线索内容中提取出第二关键分词,利用所述标准标签库中的标准化标签,对所述第二关键分词进行映射处理,得到映射结果;根据所述映射结果,对所述标准标签库进行更新,得到更新后的标准标签库。2.如权利要求1所述的一种地产行业数据标准化方法,利用所述第一线索内容进行分词处理,得到分词结果,对所述分词结果进行过滤,得到过滤后的第一关键分词,包括:利用所述第一线索内容进行第一分词处理,得到各个第一分词;针对各个所述第一分词,根据所述第一分词的词频,计算出所述第一分词的第一TF

IDF值;判断所述第一TF

IDF值是否大于第一预设过滤阈值;若所述第一TF

IDF值小于或等于第一预设过滤阈值,则将所述第一TF

IDF值对应的第一分词废弃;若所述TF

IDF值大于第一预设过滤阈值,则将所述第一TF

IDF值对应的第一分词作为第一关键分词。3.如权利要求2所述的一种地产行业数据标准化方法,其特征在于,对所述归一化向量分别进行第一聚类处理和第二聚类处理,得到第一聚类结果和第二聚类结果,根据所述第一聚类结果和所述第二聚类结果,得到综合聚类结果,包括:预先设定预设数量的聚类质心;针对各个所述归一化向量,根据所述归一化向量与各个所述聚类质心的距离,将所述归一化向量纳入距离最近的聚类质心对应的第一聚类集合中,得到聚类完成的第一聚类集合;判断所述第一聚类集合是否符合预设聚类标准;若所述第一聚类集合不符合预设聚类标准,则针对各个所述第一聚类集合,根据所述第一聚类集合中的各个归一化向量,重新计算得到预设数量的聚类质心,并重新进行聚类;若所述第一聚类集合符合预设聚类标准,则将各个所述第一聚类集合作为所述第一聚类结果。4.如权利要求3所述的一种地产行业数据标准化方法,其特征在于,对所述归一化向量分别进行第一聚类处理和第二聚类处理,得到第一聚类结果和第二聚类结果,根据所述第一聚类结果和所述第二聚类结果,得到综合聚类结果,还包括:将所有所述归一化向量映射至一维坐标系中,得到对应的向量坐标;针对各个所述向量坐标,将当前向量坐标作为起始向量坐标,判断所述起始向量坐标
与所述起始向量坐标的下一个向量坐标的距离是否小于预设距离;若所述起始向量坐标与所述起始向量坐标的下一个向量坐标的距离小于预设距离,则生成第二聚类集合,将所述起始向量坐标和所述起始向量坐标的下一个向量坐标作为聚类向量坐标,将所述聚类向量坐标纳入所述第二聚类集合;若所述起始向量坐标与所述起始向量坐标的下一个向量坐标的距离大于或等于预设距离,则不生成所述第二聚类集合;根据各个所述聚类向量坐标之间的距离,计算得到所述第二聚类集合的第一标签密度;将所述聚类向量坐标外的下一个向量坐标作为候选向量坐标,利用所述聚类向量坐标和所述候选向量坐标,计算得到第二标签密度;判断所述第二标签密度与所述第一标签密度的比值是否大于或等于预设密度比例;若所述第二标签密度与所述第一标签密度的比值大于或等于预设密度比例,则将所述候选向量坐标作为聚类向量坐标,并纳入所述第二聚类集合,并循环至将所述聚类向量坐标外的下一个向量坐标作为候选向量坐标;若所述第二标签密度与所述第一标签密度的比值小于预设密度比例,则不将所述候选向量坐标纳入所述第二聚类集合,得到完成聚类的第二聚类集合;将各个所述完成聚类的第二聚类集合作为所述第二聚类结果;根据预设聚类权重,利用所述第一聚类结果和所述第二聚类结果,得到所述综合聚类结果。5.如权利要求4所述的一种地产行业数据标准化方法,其特征在于,基于所述综合聚类结果,构建标准标签库,包括:生成初始标签库;针对所述综合聚类结果中的各个聚类...

【专利技术属性】
技术研发人员:薛健
申请(专利权)人:金茂云科技服务北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1