医疗美容实体对齐方法、装置、设备和可读存储介质制造方法及图纸

技术编号:31755950 阅读:68 留言:0更新日期:2022-01-05 16:38
本发明专利技术涉及实体对齐技术领域,公开了一种医疗美容实体对齐方法、装置、设备和可读存储介质,所述方法包括:采集医疗美容项目数据;基于医疗美容项目数据提取实体,实体的实体属性包括实体语义向量、项目实体向量和项目结构属性中的至少一个;对实体进行筛选获得第一标准实体集合和非标准实体集合;基于实体属性的相似度在非标准实体集合中的非标准实体与第一标准实体集合中的第一标准实体之间构建映射关键。本发明专利技术解决了现有医疗美容行业由于没有相对规范的行业标准和行业通用准则,导致其项目命名严重不规范,项目名称实体对齐难度大的问题。问题。问题。

【技术实现步骤摘要】
医疗美容实体对齐方法、装置、设备和可读存储介质


[0001]本专利技术涉及实体对齐
,具体是指一种医疗美容实体对齐方法、装置、设备和可读存储介质。

技术介绍

[0002]实体对齐任务是在实体识别之后的一项NLP(自然语言处理)任务,其主要内容是去判断两个或者多个不同信息来源的实体是否是指向的同一个真实世界中的同一对象,如果多个实体表征同一个对象,则在这些实体之间构建对齐关系,同时对实体包含的信息进行融合和聚集。现有的实体对齐方法主要两类,一类是基于规则的如使用词典和编辑距离来进行实体对齐或者在知识图谱中使用属性的相似度匹配的方法来进行实体对齐;第二类是基于深度学习模型的,将实体映射到低维向量空间,然后计算实体之间的相似度,在知识图谱中也会采用例如TransE算法等方法来进行向量表示,然后计算相似度。
[0003]医疗美容行业和其他行业有着明显的区别,特别是在实体对齐这个方面上,其他行业的实体,不管是传统行业如地产,金融等还是部分新兴行业如电商,互联网教育等等,他们在描述和定义实体的时候实际上都是有相对比较规范的行业标准和行业通用准本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.医疗美容实体对齐方法,其特征在于,包括:采集医疗美容项目数据;基于所述医疗美容项目数据提取实体,所述实体的实体属性包括实体语义向量、项目实体向量和项目结构属性中的至少一个;对所述实体进行筛选获得第一标准实体集合和非标准实体集合;基于实体属性的相似度在所述非标准实体集合中的非标准实体与所述第一标准实体集合中的第一标准实体之间构建映射关键。2.根据权利要求1所述的医疗美容实体对齐方法,其特征在于,对所述实体进行筛选获得第一标准实体集合包括:对所述实体进行初步筛选,将数据来源为医疗美容机构的实体加入第一候选集合;对所述第一候选集合中的第一候选实体的实体项目名称进行频次统计,若所述频次统计结果大于第一预设阈值,则将所述第一候选实体加入第二标准实体集合;从所述第一候选集合中去除所述第二标准实体集合获得第二候选集合;对所述第二候选集合中的第二候选实体进行权重计算,若权重计算结果大于第二预设阈值,则将所述第二候选实体加入第三标准实体集合;结合所述第二标准实体集合和所述第三标准实体集合获得所述第一标准实体集合。3.根据权利要求2所述的医疗美容实体对齐方法,其特征在于,对所述第一候选集合中的第一候选实体的实体项目名称进行频次统计包括:确定所述第一候选实体的实体项目名称所归属的项目大类;获取具有所述项目大类的医疗美容机构的数量;获取具有所述第一候选实体的实体项目名称的医疗美容机构的数量;获取具有所述第一候选实体的实体项目名称的医疗美容机构的数量和具有所述项目大类的医疗美容机构的数量的比值。4.根据权利要求2所述的医疗美容实体对齐方法,其特征在于,对所述第二候选集合中的第二候选实体进行权重计算包括:基于实体识别模型构建所述第二候选集合中第二候选实体之间的互斥图,对所述互斥图进行权重排序得到所述第二候选实体的第一权重;基于实体属性中实体语义向量、项目实体向量的相似度得到所述第二候选实体在所述第二标准实体集合中相似度最高的第二标准实体,所述第二候选实体与实体语义向量、项目实体向量的相似度最高的第二标准实体的相似度分数为第二权重;基于实体属性中项目结构属性的相似度得到所述第二候选实体在所述第二标准实体集合中相似度最高的第二标准实体,所述第二候选实体与项目结构属性相似度最高的第二标准实体的相似度分数为第三权重;将所述二候选实体的第一权重减去其第二权重和第三权重得到权重差。5.根据权利要求1所述的医疗美容实体对齐方法,其特征在于,基于实体属性的相似度在所述非标准实体集...

【专利技术属性】
技术研发人员:王枫杨彪
申请(专利权)人:成都美尔贝科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1