基于句法与语义分析的生词自动标注方法及系统技术方案

技术编号:38749324 阅读:10 留言:0更新日期:2023-09-09 11:16
本发明专利技术涉及一种基于句法与语义分析的生词自动标注方法及系统,其方法包括:S1:选择待标注生词以及生词文本句;步骤S2:根据待标注生词的词性筛选目标词条,若有多条目标词条,转步骤S3,若无目标词条,返回“无对应词性词条”,转步骤S4,若只有一条目标词条,则确定待标注生词的词义,转步骤S5;S3:计算生词文本句与每条目标词条相似性并以降序排序,得到相似性列表,如果相似性列表的最大值与次大值的差值不大于K,提示“存在多条可能的词条”,转步骤S4,否则根据相似性列表最大值对应词条确定待标注生词的词义并转步骤S5;S4:人工确定待标注生词词义;S5:根据待标注生词词义,对其进行标注。本发明专利技术提供方法实现了英语词汇的自动化标注。标注。标注。

【技术实现步骤摘要】
基于句法与语义分析的生词自动标注方法及系统


[0001]本专利技术涉及文字信息处理领域,具体涉及一种基于句法与语义分析的生词自动标注方法及系统。

技术介绍

[0002]生词标注是英语教育领域一项十分重要的材料准备工作,特别是培养学生阅读能力、为学生积累词汇的重要手段。标注者需要根据目标学习人群的现有英语水平及词汇量水平选择词语,并根据阅读文本的含义选择适当的释义加以标注。这项工作极大的依赖于标注人对英文文本的理解和对阅读者学习情况的掌握,耗时耗力,但却又对学习者有着重要的影响。准确的标注能够促进英语学习者的学习。阅读是学生提升语言能力的主要途径,生词是学生阅读的主要障碍和提升方向。恰当的生词标注将能够有效降低学生学习的难度,增加学生的词汇积累。
[0003]当前,针对学生英语阅读的词汇标注要么是有英语教师及编辑手动完成,要么是通过设置词库由计算机自动完成。手工标注的准确性极大的依赖于标注者对不同水平学生能力的把握,存在个体差异,容易出现错标漏标等问题;同时,手工标注人力成本大,不适于大量的英语阅读材料的处理标注。基于计算机词库的生词标注多采用一刀切的标注方法,直接将基础释义或主要释义用于对生词的标注,而未考虑具体使用语义与词语使用环境。这类方法效率高,但缺乏弹性。一些人名、地名和一些偶然出现的生词并不会影响阅读理解,但却也会被标注。这将降低阅读者的阅读体验,增加分心的关注点。此外,近年来也出现基于生词词向量与各释义句中生词词向量之间相似性的标注方法。这类方法虽然考虑了生词的词向量语义信息,但未能考虑生词的具体使用环境与实际场景,仅采用统一的词向量特征,依然容易会出现标注词义单一,词义标注与实际使用出现偏差的情况。

技术实现思路

[0004]为了解决上述技术问题,本专利技术提供一种基于句法与语义分析的生词自动标注方法及系统。
[0005]本专利技术技术解决方案为:一种基于句法与语义分析的生词自动标注方法,包括:
[0006]步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有所述待标注生词的所有句子定义为生词文本句;
[0007]步骤S2:根据所述待标注生词的词性筛选目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回提示:无对应词性词条,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5;
[0008]步骤S3:计算所述生词文本句与每条所述目标词条的释义例句的关联句向量相似性CosSim和句共现相似性CooSim;将CosSim和CooSim进行加权求和得到所述生词文本句和每个所述释义例句的整体相似性Sim并进行排序;按照排序后的Sim,计算所述生词文本句与每个所述目标词条的相似性AveSim并以降序排序,得到AveSimList,如果AveSimList的
最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5;
[0009]步骤S4:由人工根据不同提示,确定所述待标注生词的词义;
[0010]步骤S5:根据所述待标注生词的词义,完成对所述待标注生词的标注,包括对其词性、音标、英文释义、中文释义进行标注。
[0011]本专利技术与现有技术相比,具有以下优点:
[0012]本专利技术公开了一种基于句法与语义分析的生词自动标注方法,阅读文本生词的自动标注,既可以根据学习者所处的学习阶段,也可以根据文本的具体用词情况,弹性选择生词进行标注。该方法考虑了词语上下文的语义信息,也考虑了词共现的网络结构特征;此外,释义的选择是以释义各条例句为相似性计算单元的,突出了各条例句自身的应用场景。本专利技术能够实现高效、准确的生词标注,能够有效提升阅读文本词汇标注的效率,降低相关的人力和资金投入。
附图说明
[0013]图1为本专利技术实施例中一种基于句法与语义分析的生词自动标注方法的流程图;
[0014]图2为本专利技术实施例中句法成分分析结果示意图;
[0015]图3为本专利技术实施例中标注结果示意图;
[0016]图4为本专利技术实施例中的基于句法与语义分析的生词自动标注方法的框架图;
[0017]图5为本专利技术实施例中一种基于句法与语义分析的生词自动标注系统的结构框图。
具体实施方式
[0018]本专利技术提供了一种基于句法与语义分析的生词自动标注方法,实现英语词汇的自动化标注,节省标注者的时间和精力。
[0019]为了使本专利技术的目的、技术方案及优点更加清楚,以下通过具体实施,并结合附图,对本专利技术进一步详细说明。
[0020]实施例一
[0021]如图1所示,本专利技术实施例提供的一种基于句法与语义分析的生词自动标注方法,包括下述步骤:
[0022]步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有待标注生词的所有句子定义为生词文本句;
[0023]步骤S2:根据待标注生词的词性筛选目标词条,如果存在多条目标词条,转至步骤S3,如果目标词条不存在,返回提示:无对应词性词条,并转至步骤S4,如果只有一条目标词条,则根据目标词条确定待标注生词的词义,并转至步骤S5;
[0024]步骤S3:计算生词文本句与每条目标词条的释义例句的关联句向量相似性CosSim和句共现相似性CooSim;将CosSim和CooSim进行加权求和得到生词文本句和每个释义例句的整体相似性Sim并进行排序;按照排序后的Sim,计算生词文本句与每个目标词条的相似性AveSim并以降序排序,得到AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据AveSimList最大值对应
词条确定待标注生词的词义并转至步骤S5;
[0025]步骤S4:由人工根据不同提示,确定待标注生词的词义;
[0026]步骤S5:根据待标注生词的词义,完成对待标注生词的标注,包括对其词性、音标、英文释义、中文释义进行标注。
[0027]在一个实施例中,上述步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有待标注生词的所有句子定义为生词文本句,具体包括:
[0028]步骤S11:基于目标人群的英语水平和词汇表,确定当前文本中不在词汇表中的待标注生词newword,加入待标注生词列表NewWordList;
[0029]本步骤中的词汇表可以根据目标人群所处的年级已经学过的词汇表确定,也可以根据目标人群自身的词汇掌握情况(如背单词软件中已掌握词表)确定。
[0030]步骤S12:将含有newword的所有句子sentence定义为生词文本句,将生词文本句加入生词文本句列表NewSentenceList。
[0031]举例来说,如待标注生词draw对应的生词文本句“Shedrawsapicturewithap本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于句法与语义分析的生词自动标注方法,其特征在于,包括:步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有所述待标注生词的所有句子定义为生词文本句;步骤S2:根据所述待标注生词的词性筛选目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回提示:无对应词性词条,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5;步骤S3:计算所述生词文本句与每条所述目标词条的释义例句的关联句向量相似性CosSim和句共现相似性CooSim;将CosSim和CooSim进行加权求和得到所述生词文本句和每个所述释义例句的整体相似性Sim并进行排序;按照排序后的Sim,计算所述生词文本句与每个所述目标词条的相似性AveSim并以降序排序,得到AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5;步骤S4:由人工根据不同提示,确定所述待标注生词的词义;步骤S5:根据所述待标注生词的词义,完成对所述待标注生词的标注,包括对其词性、音标、英文释义、中文释义进行标注。2.根据权利要求1所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有所述待标注生词的所有句子定义为生词文本句,具体包括:步骤S11:基于目标人群的英语水平和词汇表,确定当前文本中不在所述词汇表中的待标注生词newword,加入待标注生词列表NewWordList;步骤S12:将含有newword的所有句子sentence定义为生词文本句,将所述生词文本句加入生词文本句列表NewSentenceList。3.根据权利要求2所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S2:根据所述待标注生词的词性筛选目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回提示:无对应词性词条,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5,具体包括:步骤S21:对NewSentenceList中的所述生词文本句进行句法成分分析,确定所述待标注生词在所述生词文本句的成分,从而确定所述待标注生词的词性POS,并将词性POS存入WordPOS;步骤S22:根据newword及其词性POS,在一本包含例句的英语电子词典里进行查找目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回“无对应词性词条”的提示,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5。4.根据权利要求3所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S3:计算所述生词文本句与每条所述目标词条的释义例句的关联句向量相似性CosSim和句共现相似性CooSim;将CosSim和CooSim进行加权求和得到所述生词文本句和每个所述释义例句的整体相似性Sim并进行排序;按照排序后的Sim,计算所述生词文本句与每个所述目标词条的相似性AveSim并以降序排序,得到AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据
AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5,具体包括:步骤S31:计算所述生词文本句和所述目标词条的关联句向量相似性CosSim;步骤S32:计算所述生词文本句和所述目标词条的句共现相似性CooSim;步骤S33:对句向量相似性CosSim(s,e)与句共现相似性CooSim(s,e)利用公式(1)进行加权求和,得到生词文本句与目标词条entry的每个释义例句example的整体相似性Sim(s,e);Sim(s,e)=aCosSim(s,e)+bCooSim(s,e) (1)其中,s为所述生词文本句sentence,e为词条entry中释义例句example,a、b为值在0

1范围内的超参数;步骤S34:将所有example,按照其与sentence的整体相似性Sim(s,e)按照降序排序,将排序结果存入SimList中;步骤S35:计算sentence与所述目标词条entry的相似性AveSim(s,entry):对于所述目标词条entry,从SimList中选取前h个释义例句,利用DCG公式(2)求和,即:其中,r为选取的释义例句在SimList中的排名;根据公式(3)计算sentence与所述目标词条entry的相似性AveSim(s,entry):步骤S36:将sentence与各个词条的相似性AveSim(s,entry)按照降序排序,存入AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5。5.根据权利要求4所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S31:计算所述生词文本句和所述目标词条的关联句向量相似性CosSim,具体包括:步骤S311:根据NewSentenceList,使用目标句句向量计算模块计算每个生词文本句sentence的句向量Nsvec;步骤S312:根据所述目标词条,构建释义例句列表ExampleSentenceList,使用所述目标句句向量计算模块计算每个释义例句example的句向量Dsvec;步骤S313:使用余弦相似度,计算Nsvec与Dsvec之间的相似性CosSim,即关联句向量相似性:其中,|.|为向量长度。6.根据权利要求5所述的基于句法与语义分析的生词自动标注方法,其特征在于,步骤S311中所述目标句句...

【专利技术属性】
技术研发人员:蒋东辰段梦雪牛颖康鑫隗艳萍孙艳
申请(专利权)人:广州摩翼信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1