【技术实现步骤摘要】
本专利技术涉及知识库扩展、网络抓取、浅层语言处理技术(实体识别、分词)、数值统计等
,具体的说是一种基于关系关键词扩展的元组精化方法。
技术介绍
随着互联网的快速发展,如何从海量的无结构的数据里抽取出结构化的数据成为当前的研究热点,目前信息抽取的主要研究方向是命名实体识别、指代消解、实体关系抽取等,其中实体关系抽取是当前的重要的研究内容。而当前实体关系抽取有基于知识工程的方法和基于机器学习的方法。但是基于知识工程的方法需要大量人力同时需要构建专业知识,使得领域的可移植性差,而基于机器学习的方法需要使用大量深层语言处理技术, 比如基于SVM方法在构造特征向量时需要用到句法分析和语义分析、基于kernel的方法通过引入依存树来构建最短树核、弱监督的自举方法需要词法分析中的命名实体识别技术等,仅从抽取方法上改进很难进一步提高实体关系的效果,本专利技术提出了一种元组精化方法以提闻实体关系抽取的准确率。当前实体关系抽取中元组精化方法集中在可信度评估,snowball方法在没有人工干预的情况下评估模式和元组,仅仅保留最可信(超过阈值T)的模式和元组进入下一轮迭代。但其 ...
【技术保护点】
一种在自然语言处理系统中基于关系关键词扩展的元组精化的控制方法,其特征在于,包括如下步骤:a.扩展待评估元组的关系关键词;b.获取与所述关系关键词相适应的共现句集合;c.根据所述共现句集合抽取候选实体集合;以及d.确定用于替换的实体,将所述替换实体作为所述待评估元组中的实体。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。