利用了网络搜索的依存句法的领域自适应方法技术

技术编号:9794616 阅读:177 留言:0更新日期:2014-03-21 19:28
一种利用了网络搜索的依存句法领域自适应方法,包括:构建基于K-Best的候选依存句法树重排序模型,用一个基准模型来产生一组候选依存句法分析树,其中,每一个候选依存句法分析树对应一个概率,从而定义了多个依存句法分析结果的初始序列,在此序列的基础上,重排序模型试图利用目标领域新增的句法特征来改进初始的句法树序列;进行基于网络搜索的候选依存句法树的词语依存关系评估,首先需要将一棵依存句法树拆分为一组词语关系的集合,对于集合中的每一个词语语义关系,利用网络搜索,分别计算该词语语义关系的强度,然后根据词语关系的权重来确定其评估值。经过实验证明,在宾州中文树库上训练的依存句法器,在生物医学数据上也表现出了良好的性能。

【技术实现步骤摘要】
利用了网络搜索的依存句法的领域自适应方法
本专利技术涉及自然语言处理
,尤其涉及利用了网络搜索的依存句法的领域自适应方法。
技术介绍
句法分析是自然语言处理中的基础研究问题,对机器翻译、问答系统、信息抽取等应用都起到重要的支撑作用。依存句法以其形式简洁、易于标注、便于应用等优点而倍受重视。近年来,依存句法分析的研究取得了较大进展。目前,最好的依存句法分析器(有时,也称为“依存句法分析模型”)对英文的依存句法分析的准确率已经达到了90%以上,对中文的依存句法分析的准确率也达到了80%以上。但是,这仅仅是在受限领域,比如新闻领域上所能实现的性能。而在依赖于句法分析的上层应用中,往往面临的是要面对不受限领域的数据如何进行依存句法分析。依存句法分析方面的国际权威学者SlavPetrov等人在EMNLP2010上发表论文指出,依存句法分析器MaltParser在华尔街日报(WSJ)上的无标记依存正确率(UnlabeledAccuracyScore,UAS)为84.89%,当用该依存句法分析器MaltParser来处理TREC的列表性和事实类问句时,该依存句法分析器的UAS将降至62.81本文档来自技高网...
利用了网络搜索的依存句法的领域自适应方法

【技术保护点】
一种利用了网络搜索的依存句法领域自适应方法,包括:?训练得到基准依存句法分析模型的步骤(S1),对于给定的源领域带标注的数据,通过训练得到对数线性的基准依存句法分析模型L;?获取候选依存句法树的步骤(S2),对于目标领域X={x1,x2,…,xn}中的未标注数据集合的每一个未标注数据xi,利用基准依存句法分析模型L,输出对应于未标注数据xi的K个最优候选依存句法树作为输出结果,将所述输出结果表示为一组候选依存句法树的形式,设xik表示未标注数据xi的第k棵候选依存句法树,其中,n是大于等于1的整数,K是大于等于1的整数,1≤i≤n,1≤k≤K;?获取候选依存句法树的评估值的步骤(S3),对于所...

【技术特征摘要】
1.一种利用了网络搜索的依存句法领域自适应方法,包括:训练得到基准依存句法分析模型的步骤(S1),对于给定的源领域带标注的数据,通过训练得到对数线性的基准依存句法分析模型L;获取候选依存句法树的步骤(S2),对于目标领域X={x1,x2,…,xn}中的未标注数据集合的每一个未标注数据xi,利用基准依存句法分析模型L,输出对应于未标注数据xi的K个最优候选依存句法树作为输出结果,将所述输出结果表示为一组候选依存句法树的形式,设xik表示未标注数据xi的第k棵候选依存句法树,其中,n是大于等于1的整数,K是大于等于1的整数,1≤i≤n,1≤k≤K;获取候选依存句法树的评估值的步骤(S3),对于所述获取候选依存句法树的步骤(S2)中输出的每一棵候选依存句法树xik,基于基准依存句法分析模型L,获得每一棵候选依存句法树xik的评估值,将对该评估值进行归一化得到的归一化评估值记为L(xik);通过网络搜索获取特征向量值的步骤(S4),将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},以集合中的每一个词语语义关系fj为特征,通过网络搜索计算得到该词语语义关系fj的强度fj(xik),即该特征的特征向量值,其中J是大于等于1的整数,1≤j≤J;和构建重排序模型的步骤(S5):设重排序目标函数为其中α0表示与由基准依存句法分析模型L得到的评估值L(xik)对应的权重,αj表示第j个特征对应的权重,是所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数,选出重排序目标函数最大的候选依存句法树。2.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,将每一棵候选依存句法树xik拆分为一组词语语义关系的集合F={f1,f2,…,fJ},所述未标注数据的一个句子的语义是由词语、词语关系表达出来的。3.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征在于,所述重排序目标函数中的一组对应这些特征和对数似然的权值向量参数通过广义迭代缩放算法得到。4.根据权利要求1所述的利用了网络搜索的依存句法领域自适应方法,其特征...

【专利技术属性】
技术研发人员:周光有赵军
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1