【技术实现步骤摘要】
基于句法与语义分析的生词自动标注方法及系统
[0001]本专利技术涉及文字信息处理领域,具体涉及一种基于句法与语义分析的生词自动标注方法及系统。
技术介绍
[0002]生词标注是英语教育领域一项十分重要的材料准备工作,特别是培养学生阅读能力、为学生积累词汇的重要手段。标注者需要根据目标学习人群的现有英语水平及词汇量水平选择词语,并根据阅读文本的含义选择适当的释义加以标注。这项工作极大的依赖于标注人对英文文本的理解和对阅读者学习情况的掌握,耗时耗力,但却又对学习者有着重要的影响。准确的标注能够促进英语学习者的学习。阅读是学生提升语言能力的主要途径,生词是学生阅读的主要障碍和提升方向。恰当的生词标注将能够有效降低学生学习的难度,增加学生的词汇积累。
[0003]当前,针对学生英语阅读的词汇标注要么是有英语教师及编辑手动完成,要么是通过设置词库由计算机自动完成。手工标注的准确性极大的依赖于标注者对不同水平学生能力的把握,存在个体差异,容易出现错标漏标等问题;同时,手工标注人力成本大,不适于大量的英语阅读材料的处理标注。基于计算机词库的生词标注多采用一刀切的标注方法,直接将基础释义或主要释义用于对生词的标注,而未考虑具体使用语义与词语使用环境。这类方法效率高,但缺乏弹性。一些人名、地名和一些偶然出现的生词并不会影响阅读理解,但却也会被标注。这将降低阅读者的阅读体验,增加分心的关注点。此外,近年来也出现基于生词词向量与各释义句中生词词向量之间相似性的标注方法。这类方法虽然考虑了生词的词向量语义信息,但未能考虑生词的具体 ...
【技术保护点】
【技术特征摘要】
1.一种基于句法与语义分析的生词自动标注方法,其特征在于,包括:步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有所述待标注生词的所有句子定义为生词文本句;步骤S2:根据所述待标注生词的词性筛选目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回提示:无对应词性词条,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5;步骤S3:计算所述生词文本句与每条所述目标词条的释义例句的关联句向量相似性CosSim和句共现相似性CooSim;将CosSim和CooSim进行加权求和得到所述生词文本句和每个所述释义例句的整体相似性Sim并进行排序;按照排序后的Sim,计算所述生词文本句与每个所述目标词条的相似性AveSim并以降序排序,得到AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5;步骤S4:由人工根据不同提示,确定所述待标注生词的词义;步骤S5:根据所述待标注生词的词义,完成对所述待标注生词的标注,包括对其词性、音标、英文释义、中文释义进行标注。2.根据权利要求1所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S1:基于目标人群的英语水平和词汇表,选择待标注生词,将含有所述待标注生词的所有句子定义为生词文本句,具体包括:步骤S11:基于目标人群的英语水平和词汇表,确定当前文本中不在所述词汇表中的待标注生词newword,加入待标注生词列表NewWordList;步骤S12:将含有newword的所有句子sentence定义为生词文本句,将所述生词文本句加入生词文本句列表NewSentenceList。3.根据权利要求2所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S2:根据所述待标注生词的词性筛选目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回提示:无对应词性词条,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5,具体包括:步骤S21:对NewSentenceList中的所述生词文本句进行句法成分分析,确定所述待标注生词在所述生词文本句的成分,从而确定所述待标注生词的词性POS,并将词性POS存入WordPOS;步骤S22:根据newword及其词性POS,在一本包含例句的英语电子词典里进行查找目标词条,如果存在多条所述目标词条,转至步骤S3,如果所述目标词条不存在,返回“无对应词性词条”的提示,并转至步骤S4,如果只有一条所述目标词条,则根据所述目标词条确定所述待标注生词的词义,并转至步骤S5。4.根据权利要求3所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S3:计算所述生词文本句与每条所述目标词条的释义例句的关联句向量相似性CosSim和句共现相似性CooSim;将CosSim和CooSim进行加权求和得到所述生词文本句和每个所述释义例句的整体相似性Sim并进行排序;按照排序后的Sim,计算所述生词文本句与每个所述目标词条的相似性AveSim并以降序排序,得到AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据
AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5,具体包括:步骤S31:计算所述生词文本句和所述目标词条的关联句向量相似性CosSim;步骤S32:计算所述生词文本句和所述目标词条的句共现相似性CooSim;步骤S33:对句向量相似性CosSim(s,e)与句共现相似性CooSim(s,e)利用公式(1)进行加权求和,得到生词文本句与目标词条entry的每个释义例句example的整体相似性Sim(s,e);Sim(s,e)=aCosSim(s,e)+bCooSim(s,e) (1)其中,s为所述生词文本句sentence,e为词条entry中释义例句example,a、b为值在0
‑
1范围内的超参数;步骤S34:将所有example,按照其与sentence的整体相似性Sim(s,e)按照降序排序,将排序结果存入SimList中;步骤S35:计算sentence与所述目标词条entry的相似性AveSim(s,entry):对于所述目标词条entry,从SimList中选取前h个释义例句,利用DCG公式(2)求和,即:其中,r为选取的释义例句在SimList中的排名;根据公式(3)计算sentence与所述目标词条entry的相似性AveSim(s,entry):步骤S36:将sentence与各个词条的相似性AveSim(s,entry)按照降序排序,存入AveSimList,如果AveSimList的最大值与次大值的差值不大于阈值K,返回提示:存在多条可能的词条,并转至步骤S4,否则根据AveSimList最大值对应词条确定所述待标注生词的词义并转至步骤S5。5.根据权利要求4所述的基于句法与语义分析的生词自动标注方法,其特征在于,所述步骤S31:计算所述生词文本句和所述目标词条的关联句向量相似性CosSim,具体包括:步骤S311:根据NewSentenceList,使用目标句句向量计算模块计算每个生词文本句sentence的句向量Nsvec;步骤S312:根据所述目标词条,构建释义例句列表ExampleSentenceList,使用所述目标句句向量计算模块计算每个释义例句example的句向量Dsvec;步骤S313:使用余弦相似度,计算Nsvec与Dsvec之间的相似性CosSim,即关联句向量相似性:其中,|.|为向量长度。6.根据权利要求5所述的基于句法与语义分析的生词自动标注方法,其特征在于,步骤S311中所述目标句句...
【专利技术属性】
技术研发人员:蒋东辰,段梦雪,牛颖,康鑫,隗艳萍,孙艳,
申请(专利权)人:广州摩翼信息科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。