【技术实现步骤摘要】
本专利技术涉及数据处理,尤其涉及一种中英文机构名称消歧方法及相关装置。
技术介绍
1、机构名称的表述存在一义多词的问题,比如机构全称、带缩写的表述、中英文表述、机构更名现象等等。
2、现有技术中,为了实现机构名称消歧,主要采用文本聚类的方式,同类的文档相似度较大,而不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注,但是,基于文本聚类的机构名称消歧方式中,消歧的精确度低。
技术实现思路
1、有鉴于此,本专利技术提供了一种中英文机构名称消歧方法及相关装置,用以解决现有技术中基于文本聚类的机构名称消歧方式中,消歧的精确度低的问题。具体方案如下:
2、一种中英文机构名称消歧方法,包括:
3、将待消歧机构数据集中的各个待消歧的中文机构名称翻译为英文,得到各个待消歧的英文机构名称
...【技术保护点】
1.一种中英文机构名称消歧方法,其特征在于,包括:
2.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个待消歧的英文机构名称进行缩写消歧,得到各个英文机构名称的英文全称,包括:
3.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将各个英文全称分别进行关系聚类,得到关系聚类结果,包括:
4.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个英文全称进行文本聚类,得到文本聚类结果包括:
5.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,对所述关系聚类结果和所述文本聚类结果
...【技术特征摘要】
1.一种中英文机构名称消歧方法,其特征在于,包括:
2.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个待消歧的英文机构名称进行缩写消歧,得到各个英文机构名称的英文全称,包括:
3.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将各个英文全称分别进行关系聚类,得到关系聚类结果,包括:
4.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,将所述各个英文全称进行文本聚类,得到文本聚类结果包括:
5.根据权利要求1所述的中英文机构名称消歧方法,其特征在于,对所述关系聚类结果和所述文本聚类结果进行聚合,得到聚类得分,包括:
6.根据权利要求3或4所述的中英文机...
【专利技术属性】
技术研发人员:安新颖,范少萍,单连慧,钟华,胥美美,王文凯,
申请(专利权)人:中国医学科学院医学信息研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。