面向资源缺乏语言的实体链接系统技术方案

技术编号：12128070 阅读：122 留言：0更新日期：2015-09-25 17:00

本发明专利技术涉及一种面向资源缺乏语言的实体链接系统，该系统采用基于规则和统计相结合的方法，对维吾尔语词汇进行词干切分和词性标注；根据实体指称项的上下文，对实体指称项进行扩充，通过机器翻译的双语对齐技术，实现汉语和维吾尔语词汇的对齐操作，从而利用汉语的丰富语义对维吾尔语进行扩充，获取候选实体；通过融合实体上下文特征、篇章主题特征和知识库中的概念图特征，对候选实体进行排序，将实体指称项链接到排序后的目标实体。通过本发明专利技术所述的系统解决资源缺乏语言的实体链接问题并构建实用化的维吾尔语实体链接系统。该系统能够实现语言资源缺乏的维吾尔语的实体链接功能，从而满足智能信息处理需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息
中的信息抽取、知识发现领域，尤其涉及面向资源缺乏语言的实体链接系统。
技术介绍
实体链接（EntityLinking)作为自然语言处理技术的一个分支，是指对于给定的实体指称项，将其链接到知识库中的实体概念的过程。主要针对自然语言的多样性和歧义性问题，通过将自然语言中的文本与知识库中的条目进行链接，实现阅读增强、以实体为中心的精准信息聚合、知识库扩建等工作。在候选实体发现方面，主要有两种方法，一种是基于维基百科的方法，利用维基百科中锚文本的超链接关系、消歧页面以及重定向页面获得候选实体。另一种是基于主题模型的方法。在候选实体链接方面，核心仍然是计算实体指称项和候选实体的相似度，并选择相似程度最高的候选实体作为链接的目标实体。从相似度计算的方式上，可以分成单一实体链接和协同实体链接。单一实体链接仅仅考虑实体指称项与目标实体间的语义相似度。协同实体链接通过利用协同式策略综合考虑多个实体间的语义关联，建立全局语义约束，从而更好地对于文本内的多个实体进行消岐。在现有的实体链接系统中存在以下问题： 1)系统运行需要丰富的语言资源，包括词性标注、句法分析等工具和标注资源库和知识库等； 2)目前还不存在一种面向新疆地区维吾尔语等小语种的实体链接系统可供使用；为解决上述常规实体链接系统中存在的问题，本专利技术提供了一种面向资源缺乏语言的实体链接系统。该系统可以通过词向量技术从未标注语料中进行语义发现并利用双语对齐技术进行语义扩充，缓解了传统实体链接系统的语言资源依赖问题。
技术实现思路
本专利技术...
面向资源缺乏语言的实体链接系统

【技术保护点】
一种面向资源缺乏语言的实体链接系统，其特征在于该系统面向新疆地区的少数民族语言——维吾尔语，通过规则和统计相结合的方法，利用汉语的丰富语言资源对维吾尔语进行语义扩充，完成实体链接，具体操作按下列步骤进行：a.实体指称项获取模块：识别出文本中待链接到实体库的实体指称项；b.维吾尔语预处理模块：采用基于规则和统计相结合的方法，对维吾尔语词汇进行词干提取和词性标注，词干提取是将词汇切分为词干和词缀，并保留词干部分，其中词性标注为标明该词汇的词性，如名词、动词、形容词；c. 实体指称项扩充模块：根据实体指称项的上下文，对实体指称项进行扩充，得到实体指称项的上下文信息；d.候选实体获取模块：通过机器翻译的双语对齐，实现汉语和维吾尔语词汇的对齐操作，利用汉语的丰富语义对维吾尔语进行扩充，扩充后的文本组成实体库中实体的上下文信息，将实体指称项的上下文信息与实体库中实体的上下文信息进行相似度计算，获取候选实体；e.候选实体排序模块：通过融合实体上下文特征、篇章主题特征和知识库中概念图特征，对候选实体进行排序，将实体指称项链接到排序后的目标实体即可。

【技术特征摘要】

【专利技术属性】
技术研发人员：蒋同海，李晓，马博，王磊，周喜，赵凡，杨雅婷，
申请(专利权)人：中国科学院新疆理化技术研究所，
类型：发明
国别省市：新疆;65

全部详细技术资料下载我是这个专利的主人