一种中英文机构名称消歧方法及相关装置制造方法及图纸

技术编号:40314492 阅读:23 留言:0更新日期:2024-02-07 20:56
本发明专利技术公开了一种中英文机构名称消歧方法及相关装置,将待消歧机构数据集中的各个待消歧的中文机构名称翻译为英文,将得到各个待消歧的英文机构名称进行缩写消歧,得到各个英文全称;将各个英文全称分别进行关系聚类,得到关系聚类结果,和,将所述各个英文全称进行文本聚类,得到文本聚类结果;对关系聚类结果和文本聚类结果进行聚合,得到聚类得分,基于聚类得分确定对应聚类结果中的英文全称对应的英文机构是否属于同一机构。上述过程,引入缩写消岐,提高机构消岐的准确性,进一步的,基于关系聚类和文本聚类进行聚类,并对两种聚类结果进行聚合,基于得到的聚类得分进行消歧,相较于单独的文本聚类消歧,提高了消歧结果的准确性。

【技术实现步骤摘要】

本专利技术涉及数据处理,尤其涉及一种中英文机构名称消歧方法及相关装置


技术介绍

1、机构名称的表述存在一义多词的问题,比如机构全称、带缩写的表述、中英文表述、机构更名现象等等。

2、现有技术中,为了实现机构名称消歧,主要采用文本聚类的方式,同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注,但是,基于文本聚类的机构名称消歧方式中,消歧的精确度低。


技术实现思路

1、有鉴于此,本专利技术提供了一种中英文机构名称消歧方法及相关装置,用以解决现有技术中基于文本聚类的机构名称消歧方式中,消歧的精确度低的问题。具体方案如下:

2、一种中英文机构名称消歧方法,包括:

3、将待消歧机构数据集中的各个待消歧的中文机构名称翻译为英文,得到各个待消歧的英文机构名称,其中,所述英文机构本文档来自技高网...

【技术保护点】

1.一种中英文机构名称消歧方法,其特征在于,包括:

2.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个待消歧的英文机构名称进行缩写消歧,得到各个英文机构名称的英文全称,包括:

3.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将各个英文全称分别进行关系聚类,得到关系聚类结果,包括:

4.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个英文全称进行文本聚类,得到文本聚类结果包括:

5.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,对所述关系聚类结果和所述文本聚类结果进行聚合,得到聚类得...

【技术特征摘要】

1.一种中英文机构名称消歧方法,其特征在于,包括:

2.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个待消歧的英文机构名称进行缩写消歧,得到各个英文机构名称的英文全称,包括:

3.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将各个英文全称分别进行关系聚类,得到关系聚类结果,包括:

4.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个英文全称进行文本聚类,得到文本聚类结果包括:

5.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,对所述关系聚类结果和所述文本聚类结果进行聚合,得到聚类得分,包括:

6.根据权利要求3或4所述的中英文机...

【专利技术属性】
技术研发人员:安新颖范少萍单连慧钟华胥美美王文凯
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1