一种基于序列标注模型的学科术语抽取方法及系统技术方案

技术编号：11766072 阅读：169 留言：0更新日期：2015-07-23 17:44

本发明专利技术公开了一种基于序列标注模型的学科术语抽取方法及系统，属于数据抽取技术领域。该方法首先对训练语料中的学科术语进行标注和类别标签设置，得到标注序列，并以训练语料作为观察序列、标注序列作为状态序列，训练出学科术语抽取模型，以该模型为抽取器初步抽取出待抽取语料中的学科术语，再利用学科术语之间的相似度进行初步抽取结果的筛选，筛选出属于对应学科领域的真正学科学术。通过本发明专利技术所述的抽取方法及系统，在进行学科术语的抽取时，通过将少量的训练语料进行学科术语的标注，实现了语料中学科术语的快速、准确的提取，同时还能够不断完善学科领域的已有知识体系结构，克服了传统学科术语抽取方法的不足。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据抽取
，具体涉及一种基于序列标注模型的学科术语抽取方法及系统。
技术介绍
学科术语是一个领域中最基本的单元，为了更好地描述该领域的知识体系，需要得到该领域当中的所有学科术语。而随着互联网和信息技术的发展，同一个领域中知识快速膨胀，新的领域层出不穷，学科术语的抽取及应用也越来越被受重视，例如，很多在线教育公司（比如明博教育等等）利用用户正在阅读的语料，会为用户标注出其中语料中的学科术语，并可以根据这些学科术语为用户推荐相关的教育资源，更好的满足了用户的需求。随着学科知识不断增多，用户受教育的需求日益膨胀，获取对应领域当中的学科术语成为这些在线教育公司的基本任务。但随着知识量及新
的不断增加，从对应的领域中找到相关的学科术语变得越来越困难。现有的学科术语抽取，通常使用专家标注的方法。专家凭借对相关领域知识的认知，书写领域当中的学科术语。这样的方法，具有很高的准确率，但是即使是专家也会遗漏掉很多术语，同时随着知识量的不断增加，专家的方法不具有好的持续性，现有的工作也很难迀移到其它领域。通过多年研宄，研宄人员提出了一些使用计算机完成的学科术语的抽取方法， KushalDave(可参考KushalDave,VasudevaVarma发表的论文"PatternBasedKeyword ExtractionforContextualAdvertising" ?CIKM' 10, 0ctober26 - 30.)提出了一种基于词语分块的N-gram(大词汇连续语音识别中常用的一种语言模型）关键词抽取...

【技术保护点】
一种基于序列标注模型的学科术语抽取方法，包括以下步骤：(1)将某一学科领域的训练语料中的学科术语进行标注，得到标注语料；(2)将所述标注语料按字切分，并对切分后的每个字设置一个标签t，得到标注序列，其中，t∈T，T＝{B，I，O}，B标签表示一个学科术语的开始，I标签表示一个学科术语的内部，O标签表示非学科术语；(3)将所述训练语料作为观察序列，将所述标注序列作为状态序列，利用条件随机场模型训练得到用于学科术语抽取的序列标注模型；(4)根据所述序列标注模型初步抽取出所述学科领域中待抽取语料中的学科术语；(5)筛选出初步抽取出的学科术语中属于所述学科领域的真正学科术语，包括：计算初步抽取出的学科术语与所述学科领域的已有知识结构体系中所有学科术语的相似度，判断计算出的最大相似度是否大于设定阈值，若是，则判定初步抽取出的学科术语为所述学科领域的真正学科术语；若否，则判定初步抽取出的学科术语为所述学科领域不相关的学科术语。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨硕，高飞，冯岩松，贾爱霞，赵东岩，卢作伟，王冬，
申请(专利权)人：明博教育科技有限公司，北京大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人