一种基于序列标注模型的学科术语抽取方法及系统技术方案

技术编号:11766072 阅读:169 留言:0更新日期:2015-07-23 17:44
本发明专利技术公开了一种基于序列标注模型的学科术语抽取方法及系统,属于数据抽取技术领域。该方法首先对训练语料中的学科术语进行标注和类别标签设置,得到标注序列,并以训练语料作为观察序列、标注序列作为状态序列,训练出学科术语抽取模型,以该模型为抽取器初步抽取出待抽取语料中的学科术语,再利用学科术语之间的相似度进行初步抽取结果的筛选,筛选出属于对应学科领域的真正学科学术。通过本发明专利技术所述的抽取方法及系统,在进行学科术语的抽取时,通过将少量的训练语料进行学科术语的标注,实现了语料中学科术语的快速、准确的提取,同时还能够不断完善学科领域的已有知识体系结构,克服了传统学科术语抽取方法的不足。

【技术实现步骤摘要】

本专利技术涉及数据抽取
,具体涉及一种基于序列标注模型的学科术语抽取 方法及系统。
技术介绍
学科术语是一个领域中最基本的单元,为了更好地描述该领域的知识体系,需要 得到该领域当中的所有学科术语。而随着互联网和信息技术的发展,同一个领域中知识快 速膨胀,新的领域层出不穷,学科术语的抽取及应用也越来越被受重视,例如,很多在线教 育公司(比如明博教育等等)利用用户正在阅读的语料,会为用户标注出其中语料中的学 科术语,并可以根据这些学科术语为用户推荐相关的教育资源,更好的满足了用户的需求。 随着学科知识不断增多,用户受教育的需求日益膨胀,获取对应领域当中的学科术语成为 这些在线教育公司的基本任务。但随着知识量及新
的不断增加,从对应的领域中 找到相关的学科术语变得越来越困难。 现有的学科术语抽取,通常使用专家标注的方法。专家凭借对相关领域知识的认 知,书写领域当中的学科术语。这样的方法,具有很高的准确率,但是即使是专家也会遗漏 掉很多术语,同时随着知识量的不断增加,专家的方法不具有好的持续性,现有的工作也很 难迀移到其它领域。 通过多年研宄,研宄人员提出了一些使用计算机完成的学科术语的抽取方法, KushalDave(可参考KushalDave,VasudevaVarma发表的论文"PatternBasedKeyword ExtractionforContextualAdvertising" ?CIKM' 10, 0ctober26 - 30.)提出了 一种基 于词语分块的N-gram(大词汇连续语音识别中常用的一种语言模型)关键词抽取模型, 在模型当中,首先列举所有单词的分块,再利用每个单词的词性标注(P〇S-tagging)构造 一个二元的朴素贝叶斯(Na'fveBayes)分类器,KushalDave将模型应用于广告关键词 的抽取系统中,并取得了不错的效果。Steier和Belew(可参考Steier,A.M.,Belew,R. K.Exportingphrases:astatisticalanalysisoftopicallanguage.InProceedings ofSecondSymposiumonDocumentAnalysisandInformationRetrieval, 2010:pages 179-190.)两人提出了一种基于两个单词间互信息的方法来抽取学科术语;Wanget al.(可参考Wang,J.,Liu,J.andWang,C.KeywordextractionbasedonPageRank.In ProceedingsoftheIlthPacific-AsiaConferenceonKnowledgeDiscoveryand DataMining.Nanjing,China,2007:pages857-864.)提出了一种基于Page-Rank(网页 排名)的短语评分算法,进一步来获取关键词;Matsuo和Ishizuka(可参考Matsuo,Y.and Ishizuka,M. .Keywordextractionfromasingledocumentusingwordco-occurrence statisticalinformation.InternationalJournalonArtificialIntelligence Tools. 2004:13(1),157-169.)使用单词之间的共现次数的方法来抽取关键词。 上述这些抽取方法节省了大量人力成本,但是这些方法都没有考虑术语出现的上 下文信息,需要大量的数据来训练抽取器,而一些新兴的领域缺失相关语料,所以抽取结果 相对较差;同时,这些方法都是在英语的基础上完成的,并不适应于各种语言;最后,在抽 取出新的学科术语之后,没有考虑进一步的术语去噪,术语当中依然存在一些无关的单词。
技术实现思路
针对现有技术中存在的缺陷,本专利技术的目的在于提供一种基于序列标注模型的学 科术语抽取方法及系统,实现语料中学科术语的快速、准确的抽取,并能够实现已有知识结 构体系的扩大、完善。 为实现上述目的,本专利技术采用的技术方案如下: -种基于序列标注模型的学科术语抽取方法,包括以下步骤: (1)将某一学科领域的训练语料中的学科术语进行标注,得到标注语料; (2)将所述标注语料按字切分,并对切分后的每个字设置一个标签t,得到标注序 列,其中,tGT,T= {B,I,0},B标签表示一个学科术语的开始,I标签表示一个学科术语 的内部,〇标签表示非学科术语; (3)将所述训练语料作为观察序列,将所述标注序列作为状态序列,利用条件随机 场模型训练得到用于学科术语抽取的序列标注模型; (4)根据所述序列标注模型初步抽取出所述学科领域中待抽取语料中的学科术 语; (5)筛选出初步抽取出的学科术语中属于所述学科领域的真正学科术语,包括: 计算初步抽取出的学科术语与所述学科领域的已有知识结构体系中所有学科术语的相似 度,判断计算出的最大相似度是否大于设定阈值,若是,则判定初步抽取出的学科术语为所 述学科领域的真正学科术语;若否,则判定初步抽取出的学科术语为所述学科领域不相关 的学科术语。 进一步,如上所述的一种基于序列标注模型的学科术语抽取方法,步骤(4)中,根 据序列标注模型初步抽取待抽取语料中的学科术语,包括: (4. 1)将待抽取语料作为所述序列标注模型的输入,得到该待抽取语料对应的状 态序列w,W= (W1,W2,W3,......,Wn},n为待抽取语料的字长度,Wi为待抽取语料中第i个字 的标签,WiGT,T= {B,I,0}; (4. 2)如果状态序列W中的标签同时满足以下三个条件,则标签{Wi,wi+1,…,界,}对 应的词为初步抽取出的一个学科术语:①Wi =B; ②k>i,wi+1=…=wk=I,或k=i; ③wk+1=0〇 进一步,如上所述的一种基于序列标注模型的学科术语抽取方法,步骤(5)中,学 科术语之间的相似度包括学科术语之间的表征相似度和语义相似度;所述表征相似度是指 学科术语的构成上的相似度; 计算初步抽取出的学科术语X与所述学科领域的已有知识结构体系中学科术语y 之间的相似度fatherProb(x,y)的计算公式为: fatherProb(x,y) =ayXeditSimi(x,y) + 0yXsemanticFatherSimi(x,y) ay+0y=I 其中,editSimi(x,y)为学科术语x与学科术语y之间的表征相似度, semanticFatherSimi(X,y)学科术语X与学科术语y的所有子节点的学科术语之间的平均 语义相似度,ay为表征相似度的权重,0y为平均语义相似度的权重; 根据两个学科术语之间的编辑距离计算学科术语之间的表征相似度,学科术语X 与学科术语y之间的表征相似度editSimi(X,y)计算公式为:【主权项】1. 一种基于序列标注模型的学科术语抽取方法,包括w下步骤: (1) 将某一学科领域的训练语料中的学科术语进行标注,得到标注语料; (2) 将所述标注语料按字切分,并对切分后的每个字设置一个标签t,得到标注序列, 其中,tGT,T=巧本文档来自技高网
...

【技术保护点】
一种基于序列标注模型的学科术语抽取方法,包括以下步骤:(1)将某一学科领域的训练语料中的学科术语进行标注,得到标注语料;(2)将所述标注语料按字切分,并对切分后的每个字设置一个标签t,得到标注序列,其中,t∈T,T={B,I,O},B标签表示一个学科术语的开始,I标签表示一个学科术语的内部,O标签表示非学科术语;(3)将所述训练语料作为观察序列,将所述标注序列作为状态序列,利用条件随机场模型训练得到用于学科术语抽取的序列标注模型;(4)根据所述序列标注模型初步抽取出所述学科领域中待抽取语料中的学科术语;(5)筛选出初步抽取出的学科术语中属于所述学科领域的真正学科术语,包括:计算初步抽取出的学科术语与所述学科领域的已有知识结构体系中所有学科术语的相似度,判断计算出的最大相似度是否大于设定阈值,若是,则判定初步抽取出的学科术语为所述学科领域的真正学科术语;若否,则判定初步抽取出的学科术语为所述学科领域不相关的学科术语。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨硕高飞冯岩松贾爱霞赵东岩卢作伟王冬
申请(专利权)人:明博教育科技有限公司北京大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1