用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备技术方案

技术编号：9829071 阅读：227 留言：0更新日期：2014-04-01 18:09

本发明专利技术提供用于自动评估写作的基于示例的错误检测系统、用于该系统的方法和用于该系统的错误检测设备，其通过因特网或其它语言传输介质收集包括各种文体风格在内的示例语句，并且构建基于示例的数据库，其中，当写成的输入语句被输入时，输入语句被以语素为单位分解，从单独的语素产生按照预定窗口大小结合的语素序列，接着使用基于示例的数据库中示出的语素序列的频度来分析各个语素序列，由此检测每个语素中的错误并提出对错误的修改。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备
本公开涉及用于自动评估写作的错误检测，更具体地，涉及用于自动评估写作的基于示例的错误检测系统、方法和设备，其以语素为单位分解写成的输入语句，从语素产生按照预定窗口大小结合的语素序列，在基于示例的数据库（DB）中搜索每个语素序列，并且针对语素分析所述语素被与语素序列一起排列的频度，由此基于示例来检测各个语素的错误并且提出对检测到的错误的修改。
技术介绍
最近，大学入学考试和本地企业的学业能力测试正在改变，以评估口语或写作的实际英语水平。也就是说，为了提高英语水平，教育部（MOE）开发了国家英语能力测试（NEAT）（基于因特网的听力、阅读、口语和写作评定）。NEAT目前作为示例被强制执行，并且公务员考试或学习能力倾向测验（SAT）英语测试可以用NEAT代替。在这种英语能力测试中，引入了自动化写作评估系统来评估写作能力。自动化写作评估系统在语法上分析所写成的语句并且通过错误检测来评估写成的语句在语法上是否合适。在此情况下，在分析写成的语句的过程中，不可避免地需要分析语句的语素并且对语素进行词性标注处理。因为相关技术的语素分析和词性标注装置仅依赖于词性（part-of-speech）序列信息而不另外考虑词汇表、词性、含义和周围词的上下文共现（co-occurrence）关系，所以存在准确性显著下降的问题。为了解决这个问题，已经提出了使用词典、语言模型等补充地应用单词的规则信息和统计信息并且构建外围单词规则和单词上下文信息的错误检测和纠正方法。具体地，语言模型可以利用概率基于语法统计信息来表示单词之间的连...
用于自动评估写作的基于示例的错误检测系统、方法及错误检测设备

【技术保护点】
一种用于自动评估写作的错误检测系统，该错误检测系统包括：示例构建设备，其被配置为通过语言传输介质收集包括多种文体风格的示例语句，以语素为单位分解收集到的示例语句，并且在基于示例的索引数据库中构建示例语句；以及错误检测设备，其被配置为当写成的输入语句被输入时以语素为单位分解上述输入语句，基于所分解的各个语素产生按照任意窗口（n‑窗口）大小结合的语素序列，按照所产生的语素序列搜索所述基于示例的索引数据库，并且根据每个语素与对应的语素序列一起排列的频度来检测错误。

【技术特征摘要】
【国外来华专利技术】2011.10.26 KR 10-2011-01098121.一种用于自动评估写作的错误检测系统，该错误检测系统包括：示例构建设备，其被配置为通过语言传输介质收集包括多种文体风格的示例语句，以语素为单位分解收集到的示例语句，并且在基于示例的索引数据库中构建示例语句；以及错误检测设备，其被配置为当写成的输入语句被输入时以语素为单位分解上述输入语句，基于已被标注了词性的各个语素通过按照任意窗口大小前向或后向地结合所分解的输入语句的一个或更多个语素来产生一个或更多个语素序列，按照所产生的语素序列搜索所述基于示例的索引数据库，并且根据每个语素与对应的语素序列一起排列的频度来检测错误，其中，所述错误检测设备提取各个语素被与所搜索到的语素序列一起排列的频度，并且基于所提取的频度来计算兼容性，并且通过判断所计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。2.一种错误检测设备，该错误检测设备包括：输入语句分解单元，其被配置为以语句和语素为单位分解写成的输入语句的集合；词性标注单元，其被配置为向所述语素标注词性；以及错误检测单元，其被配置为基于已被标注了词性的各个语素通过按照任意窗口大小前向或后向地结合所分解的输入语句的一个或更多个语素来产生一个或更多个语素序列，按照所产生的语素序列搜索基于示例的索引数据库中，并且根据各个语素与对应的语素序列一起排列的频度来检测错误部分，其中，所述错误检测单元包括：兼容性计算单元，其被配置为提取各个语素被与所搜索到的语素序列一起排列的频度，并且基于所提取的频度来计算兼容性；以及错误判断单元，其被配置为通过判断计算出的兼容性分数是否低于阈值或者所述兼容性分数是否被减少了预定值或更多来检测错误部分。3.根据权利要求2所述的错误检测设备，其中，所述错误检测单元包括：N-语法产生单元，其被配置为基于已被标注了词性的各个语素通过按照任意窗口大小结合前向或后向定位的语素来产生语素序列；以及搜索单元，其被配置为针对每个语素在由多个示例语句构建的基于示例的索引数据库中搜索是否存在由所述N-语法产生单元产生的所述语素序列。4.根据权利要求3所述的错误检测设备，其中，所述N-语法产生单元还被配置为基于各个语素通过按照任意窗口大小结合前向定位的语素来产生前向语素序列，并且通过按照任意窗口大小结合后向定位的语素来产生后向语素序列。5.根据权利要求4所述的错误检测设备，其...

【专利技术属性】
技术研发人员：金承焕，李银淑，金圣默，金东南，金星，
申请(专利权)人：SK电信有限公司，
类型：发明
国别省市：韩国;KR

全部详细技术资料下载我是这个专利的主人