用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备技术方案

技术编号:9829071 阅读:227 留言:0更新日期:2014-04-01 18:09
本发明专利技术提供用于自动评估写作的基于示例的错误检测系统、用于该系统的方法和用于该系统的错误检测设备,其通过因特网或其它语言传输介质收集包括各种文体风格在内的示例语句,并且构建基于示例的数据库,其中,当写成的输入语句被输入时,输入语句被以语素为单位分解,从单独的语素产生按照预定窗口大小结合的语素序列,接着使用基于示例的数据库中示出的语素序列的频度来分析各个语素序列,由此检测每个语素中的错误并提出对错误的修改。

【技术实现步骤摘要】
【国外来华专利技术】用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备
本公开涉及用于自动评估写作的错误检测,更具体地,涉及用于自动评估写作的基于示例的错误检测系统、方法和设备,其以语素为单位分解写成的输入语句,从语素产生按照预定窗口大小结合的语素序列,在基于示例的数据库(DB)中搜索每个语素序列,并且针对语素分析所述语素被与语素序列一起排列的频度,由此基于示例来检测各个语素的错误并且提出对检测到的错误的修改。
技术介绍
最近,大学入学考试和本地企业的学业能力测试正在改变,以评估口语或写作的实际英语水平。也就是说,为了提高英语水平,教育部(MOE)开发了国家英语能力测试(NEAT)(基于因特网的听力、阅读、口语和写作评定)。NEAT目前作为示例被强制执行,并且公务员考试或学习能力倾向测验(SAT)英语测试可以用NEAT代替。在这种英语能力测试中,引入了自动化写作评估系统来评估写作能力。自动化写作评估系统在语法上分析所写成的语句并且通过错误检测来评估写成的语句在语法上是否合适。在此情况下,在分析写成的语句的过程中,不可避免地需要分析语句的语素并且对语素进行词性标注处理。因为相关技术的语素分析和词性标注装置仅依赖于词性(part-of-speech)序列信息而不另外考虑词汇表、词性、含义和周围词的上下文共现(co-occurrence)关系,所以存在准确性显著下降的问题。为了解决这个问题,已经提出了使用词典、语言模型等补充地应用单词的规则信息和统计信息并且构建外围单词规则和单词上下文信息的错误检测和纠正方法。具体地,语言模型可以利用概率基于语法统计信息来表示单词之间的连接关系,从给定区域的很多文本语句容易地提取连接关系,并且在错误检测上具有高准确性。然而,实际语言固有地随着时间和地点而变化而不是遵循标准化的规则,并且因而可能经常与语法统计信息不同。例如,暗示的词语、因特网术语、新建立的现代语言等违反语法,但是经常在真实生活中使用并且基于语法统计信息会被检测为错误。因此,在写作评估中,需要一种即使在没有持续产生复杂规则但通过应用人们现在频繁使用的模式也能够使得错误检测中的错误减到最小并准确地纠正检测到的错误的方案。
技术实现思路
技术问题根据一些实施方式,提供了用于自动评估写作的基于示例的错误检测系统、方法和错误检测设备,通过因特网或其它语言传输介质收集包括各种文体风格在内的示例语句,并且构建基于示例的数据库,其中,当输入了写成的输入语句时,输入语句被以语素为单位分解,从语素产生按照预定窗口大小结合的语素序列,在基于示例的DB中搜索各个语素序列,并且分析语素被与针对所述语素的语素序列一起排列的频度,由此基于示例来检测各个语素的错误并且提出对检测到的错误的修改。技术方案根据一些实施方式,一种用于自动评估写作的错误检测系统包括示例构建设备和错误检测设备。该示例构建设备被配置为通过语言传输介质收集包括多种文体风格的示例语句,以语素为单位分解收集到的示例语句,并且在基于示例的索引DB中构建示例语句。该错误检测设备被配置为当输入语句被输入时以语素为单位分解写成的输入语句,基于所述语素产生按照任意窗口(n-窗口)大小结合的语素序列,在基于示例的索引DB中搜索每个产生的语素序列,并且根据各个语素被与对应的语素序列一起排列的频度来检测错误。根据一些实施方式,一种错误检测设备包括输入语句分解单元、词性标注单元和错误检测单元。该输入语句分解单元被配置为以语句和语素为单位对写成的输入语句集合进行分解。该词性标记单元被配置为对所述语素进行词性标注。该错误检测单元被配置为针对已被标注了词性的各个语素产生按照任意窗口(n-窗口)大小结合的语素序列,在基于示例的索引DB中搜索每个产生的语素序列,并且根据各个语素被与对应的语素序列一起排列的频度来检测错误部分。根据一些实施方式,一种自动评估写作的错误检测方法包括:以语句和语素为单位分解写成的输入语句的集合;对语素进行词性标注;针对已被标注了词性的各个语素通过按照任意窗口(n-窗口)大小结合前向或后向定位的语素而产生语素序列;以及在基于示例的索引DB中搜索每个产生的语素序列,以根据各个语素被与对应的语素序列一起排列的频度来检测错误部分。技术效果根据此处公开的实施方式,通过基于自然表达而不是语言的标准化规则来收集并且构建语句(示例语句),基于所收集和构建的语句(示例语句)对输入语句进行分析以检测错误,并且如果需要则提出对错误的修改,提高了写作评估的性能。附图说明图1是例示根据至少一个实施方式的用于自动评估写作的错误检测系统的构造的图。图2是例示根据至少一个实施方式的错误检测系统的示例性构建设备的构造图。图3是例示根据至少一个实施方式的错误检测系统的错误检测设备的构造图。图4是例示图3的错误检测单元的构造图。图5是例示要在图3的每个部件中执行的功能的说明图。图6是例示由图3的错误检测单元获得的结果值的图。图7是例示根据至少一个实施方式的构建自动化写作评估的基于示例的DB的方法的流程图。图8是例示根据至少一个实施方式的用于自动化写作评估的错误检测的方法的流程图。图9是例示图8的错误检测处理的详细示意图。具体实施方式以下描述详细参照附图。然而,本领域技术人员将理解,以下描述不限于以下具体公开的实施方式并且按照各种不同形式实现,并且以下描述的范围不限于以下实施方式。将省略已知的技术、要素、结构和处理以避免混淆本公开的主题。此处所用的措辞“示例(example)”是指“使用中的示例”的词典含义,并且是指其中特定单词在语言学领域使用的示例语句。具体地,此处使用的“示例”包括在真实生活中使用的作为不遵循标准化规则的语句的全部语句以及包括各种文体风格的语句,而不是其中基于标准化的语法结构构建语句的语料库(corpus)。图1是例示根据至少一个实施方式的用于自动评估写作的错误检测系统的构造的图。错误检测系统可以包括示例构建设备200和错误检测设备100。示例构建设备200通过从语言传输介质公开的语句集合(sentenceset)收集示例语句,以此来构建用于错误检测的大容量索引DB180。这个构建的索引DB180存储基于各个示例的统计信息。错误检测设备100利用示例构建设备200构建的索引DB180来检测输入到分析单元的输入语句的错误,并且显示检测到的错误。另外,错误检测设备100通过提出对检测到的错误的修改来执行错误纠正功能。错误检测设备100的特征在于根据基于示例的统计信息来检测输入语句中的错误。另外,错误检测设备100的特征在于使用N-语法(N-Gram)搜索方案,当检测到错误时,按照任意窗口(window)为单位结合的部分为单位比较和搜索统计信息,而不是以搜索完整的输入语句。总体上,N-语法搜索方案包括以两个窗口为单位对部分(section)进行分类的二元语法(bigram)、以三个窗口对部分进行分类的三元语法(trigram)等。这些方案根据窗口大小考虑一个或更多个先前上下文的出现频度。具体地,示例构建设备200按照图2例示那样构成。参照图2,示例构建设备20包括示例收集单元210、示例分解单元220、N-语法产生单元230以及构建单元240。示例收集单元210从通过诸如因特网、新闻和报纸文章这样的语言本文档来自技高网
...
用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备

【技术保护点】
一种用于自动评估写作的错误检测系统,该错误检测系统包括:示例构建设备,其被配置为通过语言传输介质收集包括多种文体风格的示例语句,以语素为单位分解收集到的示例语句,并且在基于示例的索引数据库中构建示例语句;以及错误检测设备,其被配置为当写成的输入语句被输入时以语素为单位分解上述输入语句,基于所分解的各个语素产生按照任意窗口(n‑窗口)大小结合的语素序列,按照所产生的语素序列搜索所述基于示例的索引数据库,并且根据每个语素与对应的语素序列一起排列的频度来检测错误。

【技术特征摘要】
【国外来华专利技术】2011.10.26 KR 10-2011-01098121.一种用于自动评估写作的错误检测系统,该错误检测系统包括:示例构建设备,其被配置为通过语言传输介质收集包括多种文体风格的示例语句,以语素为单位分解收集到的示例语句,并且在基于示例的索引数据库中构建示例语句;以及错误检测设备,其被配置为当写成的输入语句被输入时以语素为单位分解上述输入语句,基于已被标注了词性的各个语素通过按照任意窗口大小前向或后向地结合所分解的输入语句的一个或更多个语素来产生一个或更多个语素序列,按照所产生的语素序列搜索所述基于示例的索引数据库,并且根据每个语素与对应的语素序列一起排列的频度来检测错误,其中,所述错误检测设备提取各个语素被与所搜索到的语素序列一起排列的频度,并且基于所提取的频度来计算兼容性,并且通过判断所计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。2.一种错误检测设备,该错误检测设备包括:输入语句分解单元,其被配置为以语句和语素为单位分解写成的输入语句的集合;词性标注单元,其被配置为向所述语素标注词性;以及错误检测单元,其被配置为基于已被标注了词性的各个语素通过按照任意窗口大小前向或后向地结合所分解的输入语句的一个或更多个语素来产生一个或更多个语素序列,按照所产生的语素序列搜索基于示例的索引数据库中,并且根据各个语素与对应的语素序列一起排列的频度来检测错误部分,其中,所述错误检测单元包括:兼容性计算单元,其被配置为提取各个语素被与所搜索到的语素序列一起排列的频度,并且基于所提取的频度来计算兼容性;以及错误判断单元,其被配置为通过判断计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。3.根据权利要求2所述的错误检测设备,其中,所述错误检测单元包括:N-语法产生单元,其被配置为基于已被标注了词性的各个语素通过按照任意窗口大小结合前向或后向定位的语素来产生语素序列;以及搜索单元,其被配置为针对每个语素在由多个示例语句构建的基于示例的索引数据库中搜索是否存在由所述N-语法产生单元产生的所述语素序列。4.根据权利要求3所述的错误检测设备,其中,所述N-语法产生单元还被配置为基于各个语素通过按照任意窗口大小结合前向定位的语素来产生前向语素序列,并且通过按照任意窗口大小结合后向定位的语素来产生后向语素序列。5.根据权利要求4所述的错误检测设备,其...

【专利技术属性】
技术研发人员:金承焕李银淑金圣默金东南金星
申请(专利权)人:SK电信有限公司
类型:发明
国别省市:韩国;KR

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1