基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质技术方案

技术编号:23672510 阅读:32 留言:0更新日期:2020-04-04 17:57
本发明专利技术公开了一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本发明专利技术领域专业词汇词嵌入向量训练方法的实施步骤包括:获取领域专业词汇的正规名称及其别名,建立别名表;对训练文献进行别名标准化;使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本发明专利技术能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。

Training method, system and medium of domain specific words embedding vector based on alias standardization

【技术实现步骤摘要】
基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
本专利技术涉及自然语言处理技术,具体涉及一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质。
技术介绍
在自然语言处理中,命名实体识别(NamedEntityRecognition,简称NER)能够从专业文献中自动获取特定领域的命名实体,是构建领域基础数据库的一种重要方法。以生物医学领域为例,PubMed文献库提供了近3000万篇的论文摘要和500万篇论文全文,是生物医学领域文本挖掘的重要数据来源。从这些文献中自动获取基因、变异、疾病、药物等实体及其相互间的关系,能够为生物医学领域构建完善的基础数据库。目前基于深度学习的自然语言理解技术是命名实体识别的重要方法,这种方法需要以文献中单词的词嵌入向量作为深度学习算法的输入。在传统word2vec词嵌入向量的学习中,学习获得的词嵌入向量的准确度与该单词在训练文献中出现的频次密切相关,在训练文献中出现次数越多的单词,经过训练得到的该单词的词嵌入向量越能准确地表述这一单词的词性、语义等信息。实验测试表明,对于在训练文献中出现次数少于10次的单词,获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。对于诸如生物医学等专业应用领域,通常都存在大量的专业词汇,由于每篇文献讨论的主题都互不相同,每个含义的专业词汇在训练文献中出现的次数都很少。而在获取领域专业知识时,这些词汇常常就是文本挖掘需要识别的命名实体。在实际应用中我们发现,在专业领域内,经常是多种不同的词汇表示同一含义,有的是口语化的词汇,有的是书面术语词汇,有的是不同地域使用不同词汇,这种别名现象进一步降低了专业词汇在文献中出现的次数,导致这些专业词汇的词向量表示不准确。专业词汇的词向量学习不准确,词嵌入向量就无法准确反映出单词的词义及其在句子中的词性、语义等信息,后续基于深度学习的命名实体识别也无法获得准确的识别结果。
技术实现思路
本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质,本专利技术能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,从而大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。为了解决上述技术问题,本专利技术采用的技术方案为:一种基于别名标准化的领域专业词汇词嵌入向量训练方法,实施步骤包括:1)获取领域专业词汇的正规名称及其别名,建立别名表;2)对训练文献进行别名标准化;3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量。4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。可选地,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。可选地,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。可选地,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。可选地,步骤3)中的词嵌入向量计算工具为word2vec。此外,本专利技术还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括:映射输入程序单元,用于输入领域专业词汇的正规名称及其别名;别名标准化程序单元,用于对训练文献进行别名标准化;词嵌入向量学习程序单元,用于使用词嵌入向量计算工具对标准化后的训练文献进行学习得到所有单词的词嵌入向量。此外,本专利技术还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,该计算机设备被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的步骤。此外,本专利技术还提供一种基于别名标准化的领域专业词汇词嵌入向量训练系统,包括计算机设备,该计算机设备至少包括微处理器和存储器,且该存储器上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。此外,本专利技术还提供一种计算机可读存储介质,该计算机可读存储介质上存储有被编程或配置以执行所述基于别名标准化的领域专业词汇词嵌入向量训练方法的计算机程序。和现有技术相比,本专利技术具有下述优点:领域专业词汇通常有多个别名,由于表示同一含义的专业词汇在文献中以各种不同的别名形式存在,使得该含义的正规名和别名在文献中出现次数都很低,从而导致获得的词嵌入向量准确度很低,这些低质量的词嵌入向量会大大降低命名实体识别的准确度。本专利技术构建对应的正规名和别名,然后将文献中出现的所有别名均替换成对应的正规名,最后再对标准化后的文献进行词嵌入的学习,通过上述的别名标准化操作,能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。附图说明图1为本专利技术实施例方法的基本流程示意图。具体实施方式如图1所示,本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法的实施步骤包括:1)输入领域专业词汇的正规名称及其别名,建立别名表;2)对训练文献进行别名标准化;3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。本实施例基于别名标准化的领域专业词汇词嵌入向量训练方法通过构建对应的正规名和别名,然后将文献中出现的所有别名均替换成对应的正规名,最后再对标准化后的文献进行词嵌入的学习,通过上述的别名标准化操作,能够克服领域专业词汇的词嵌入向量不准确的问题,通过别名标准化的方法将相同含义的词汇统一用标准化的词汇表示,使得专业词汇在文献中出现的次数大大增加,大幅度提高了专业词汇的词嵌入向量的准确性,为专业领域的命名实体识别奠定了坚实的基础。本实施例中,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。本实施例中,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括正规名称和与该正规名称具有相同含义的所有别名的列表。本实施例中,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。本实施例中,步骤3)中的词嵌入向量计算工具为word2vec。此外,本实施例还提供一种基于别名标准化的领域专本文档来自技高网
...

【技术保护点】
1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于实施步骤包括:/n1)获取领域专业词汇的正规名称及其别名,建立别名表;/n2)对训练文献进行别名标准化;/n3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;/n4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。/n

【技术特征摘要】
1.一种基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于实施步骤包括:
1)获取领域专业词汇的正规名称及其别名,建立别名表;
2)对训练文献进行别名标准化;
3)使用词嵌入向量计算工具对标准化后的训练文献进行学习得到训练文献中所有单词的词嵌入向量;
4)将别名表中所有别名的词嵌入向量设置为其对应的正规名称的词嵌入向量。


2.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤1)之前还包括收集领域专业词汇的正规名称及其别名的步骤。


3.根据权利要求2所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,所述收集领域专业词汇的正规名称及其别名的步骤包括:通过领域专业数据库,对专业词汇的正规名和别名进行收集整理形成专业词汇表,所述专业词汇表中的每一项包括一个正规名称和与该正规名称具有相同含义的所有别名的列表。


4.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,步骤2)对训练文献进行别名标准化具体是指对于所有用于词向量学习的训练文档,查找训练文献中的所有领域专业词汇的别名,并将别名替换为对应的正规名称。


5.根据权利要求1所述的基于别名标准化的领域专业词汇词嵌入向量训练方法,其特征在于,...

【专利技术属性】
技术研发人员:赵强利蒋艳凰李根张少伟雷鹏余硕军万斌贺依依
申请(专利权)人:人和未来生物科技长沙有限公司
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1