当前位置: 首页 > 专利查询>杨盛专利>正文

文字输入过程中的自动校对方法技术

技术编号:4157980 阅读:182 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及文字输入过程中的自动校对方法,包括:为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包括语境标记;将所述语境词作为所述预设编码的首选候选词;接收用户输入的编码,检索与所述编码对应的候选词;判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。所述语境参数还可以包括:表示所述语境词的有效期间的作用周期;表示需要校对的已上屏的字数的校对信息。所述自动校对方法还包括删除超过有效期间的语境词、根据校对信息修正已上屏的字。实施本发明专利技术,能够提高首选词的准确度,实现文字上屏前校对与上屏后自动校对。

Automatic proofreading method in text input

The present invention relates to a method of automatic correction, text input process including: default encoding context word, the context words include contextual parameters and text content, the context parameters including at least contextual markers; will be the preferred candidate word the context words as the default encoding; receiving user input encoding, retrieval of candidate the word corresponding to the encoding of the candidate words selected by the user; judging whether the word belongs to the context, if the word belongs to the context, extracting the candidate words of the text content and output of the text; if it does not belong to the context of words, the output of the candidate words. The context parameter may also include a function cycle indicating the effective period of the context word; a collation information indicating the number of words on the upper screen that need to be proofread. The automatic proofreading method also includes deleting a context word over the validity period and correcting the words on the upper screen according to the collation information. The invention can improve the accuracy of the preferred words, realize the automatic proofreading before the text on the screen and after the upper screen.

【技术实现步骤摘要】

本专利技术涉及文字输入,尤其涉及在计算机、手机等电子产品的文字输入 过程中的自动校对方法。在本说明书和权利要求书中,如果没有特别的说明, 术语文字,,可以是汉字、字符、符号及其组合,而术语字指单个汉字 或者单个字符,而词,,和候选词,,可以是单个或者多个汉字、字符。
技术介绍
文字输入是计算机、手机、PDA (个人数字助理)等电子产品中不可或 缺的功能。绝大多数文字输入法都存在重码的问题。所谓重码,是指有两个 或者两个以上的候选字词对应于相同的编码。例如,使用拼音输入法时对应 于编码zhidao的候选词就有知道、直到、指导等。出现重码会降 低文字输入的速度与准确度,如果误选了不想要的候选词,还会增加后期的 校对工作量。针对重码问题,现有的一种处理方法是应用调频技术。调频的原理是根 据用户的输入内容动态地调整各个编码的候选词顺序。常用的一种调频技术 是智能调频,其原理是根据语料库中收集的语料,当用户输入的字词符合这 些语料时,将用户接下来可能需要的重码候选词自动提前调整至第1位作为 首选候选词,智能调频命中率比一般的自动调频有所提高。但是,自动调频 之后,输入法程序无法区分哪个候选词调过,哪个候选词没有调过,所以系 统无法及时恢复原来的字词顺序,导致候选词的顺序在不停地变化,用户需 要一直依赖候选词列表进行输入,降低了文字输入效率。此外,目前的输入法无法自动对已经上屏的词进行修正,从而增加了文 字输入后的校对工作量。因此,亟需一种自动校对方法,该方法最好能够在 文字上屏之前进行自动校对以提高首选候选词的准确度,并能够在文字上屏后自动修正误输入的词。专利技术内容本专利技术提供一种,包括以下步骤 为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包4舌语境标记;将所述语境词作为所述预设编码的首选候选词; 接收用户输入的编码,检索与所述编码对应的候选词; 判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。本专利技术的进一步改进是语境词的语境参数还包括作用周期,用于表示所述语境词的有效期间;所述将语境词作为首选候选词的步骤包括将所述语境词添加到所述预 设编码的原有的候选词列表;所述自动4交对方法还包括删除超出有效期间的语境词,并恢复与该语 境词对应的预设编码的原有的候选词列表。本专利技术的进一步改进是语境词的语境参数还包括校对信息,所述校对信息表示需要校对的字数; 所述输出语境词的文字内容的步骤还包括根据所述语境词的校对信息, 修正已上屏的字。本专利技术的进一步改进是构造语境校对数据库,所述语境校对数据库包括语境关联词、预设编码 以及对应的语境词;緩存最近一次输出的内容,判断所緩存的内容是否与所述语境关联词完 全匹配,如果完全匹配,就为对应的预设编码产生语境词。本专利技术的进一步改进是如果没有候选词与用户输入的编码对应,就将所述用户输入的所述编码作为所述最近一次输出的内容并进行緩存。本专利技术的进一步改进是累计连续输出的内容,判断所累计的内容是否 与所述语境关联词完全匹配,如果完全匹配,就为所述对应的编码产生语境 词。本专利技术的实施例具有以下有益效果本专利技术通过检索语境关联词给预设 的编码产生语境词,该语境词包含语境参数从而区别于输入法自带的候选词, 该语境词作为对应编码的首选候选词,从而提高了首选候选词的准确度,实 现文字上屏前自动才交对;本专利技术还包括删除超过有效期间的语境词,以恢复 对应编码原有的候选词列表;此外,语境参数中还包括校对信息,可根据该 校对信息自动地对已经上屏的文字进行修正。附图说明图l是本专利技术一个实施例的自动校对方法的流程图; 图2是本专利技术另 一个实施例的自动校对方法的流程图。具体实施方式为了 ^f更于理解本专利技术,下面先阐述本专利技术涉及的术语与实现原理。1、 词、〗夷选词为了便于描述,在本专利技术中,如果没有特别的说明,词包括字、词语、 词组、短语。相应地,输入法的候选词,,可以是字、词语、词组、短语等。2、 上屏,是指文字已经输出到光标当前所在的输入窗口或者某个程序中,例如Windows系统的记事本程序、Microsoft公司的word程序、IE网页浏览器、QQ文本输入框等。 3、重码、重码错误重码,是指对于相同的编码有两个或者两个以上 候选词。例如,拼音 输入法中编码xiangtong的候选词就有相同、相通、想通等。重码错误,是指出现重码时,上屏的词不是用户想要的词。例如,用户 想要的词未在第 一位,系统自动选择了用户不想要的词上屏或用户选择了用 户不想要的词上屏。例如,五笔输入法编码ftjg的候选词有都是、教 师、老师、考量,,等,当用户需要老师,,这个词,用五笔在盲打时, 有时会忘记选择,会导致处在首选候选词都是自动上屏一一这里的都是就是重码错误,,;或者用户记不清想要的候选词在第几位,按错键,导 致其他的候选词上屏,从而造成重码错误。4、 语境、语境关联词语境,也就是语言环境;语境关联词,是指表示具体语境的词。本专利技术 中,根据具体的应用情况,可以作为语境的内容包括即时输出的词或字符、 用户累计输出的词、用户输入的编码、用户选择的主题语境等。语境可用来 判断用户想输入的词是什么,从而提高首选候选词的准确度。例如,五笔输 入法中,编码dglg,,对应着礓、古国、三国,,这三个候选词。如果用 户最近输入的词是文明,,,那么,在文明作为语境关联词的基础上,可 以判断出用户想输入的是古国而不是三国或者礓。5、 累计累计,也可称为累加,相当于字符或者字符串的连接,在本专利技术中主要 用于统计用户连续输入的内容。例如,用户连续输入文和明时,累 计结果是文明;用户连续输入内蒙古和自治区时,累计结果是内 蒙古自治区。6、 匹配、完全匹配匹配在本专利技术中的含义当A、B两个字符串自左至右进行依次比较时, 若B字符串是A字符串的前缀就称为匹配,或者称为B与A匹配。完全 匹配也称为精确匹配,是匹配的一种特例,当B字符串与A字符串内 容完全相同时,就称为完全匹配。在一些计算机编程语言中,匹配比较运算 符用=表示,完全匹配比较运算符用==表示。本专利技术中,匹配和完全匹配主要用于判断用户输入的内容是否属于语境关联词。例如,如果语境关联词是文明,那么,用户输入的文、文明都 和语境关联词文明匹配,用户输入的文明与语境关联词文明属 于完全匹配。再例如,如果语境关联词是内蒙古自治区,那么,内、内蒙、内 蒙古、内蒙古自、内蒙古自治、内蒙古自治区,,与该语境关联词匹配, 并且,内蒙古自治区与该语境关联词属于完全匹配。相反,内蒙古的,, 与内蒙古自治区就不是匹配了,蒙古,,与内蒙古自治区也不属于匹 配。7、 语境词语境词包含文字内容部分和对应的语境参数部分,文字是语境词对应的 文字内容,如用户选择的候选词是语境词时,输出上屏的内容就是该语境词 的文字内容。因此,语境词不同于输入法自带的词,语境词与输入法自带的词是有区别的。例如,如果A是语境参数,那么,A古国,,或者古国A 是语境词,而古国是输入法自带的词。应当意识到,语境参数可以是可 视化的(用户能看到),也可以是不可视的(用户看不到)。语境参数可以包 含多种信息,并且可以采用多种形式,例如,可以在输入本文档来自技高网...

【技术保护点】
一种文字输入过程中的自动校对方法,其特征在于,包括以下步骤:    为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包括语境标记;    将所述语境词作为所述预设编码的首选候选词;    接收用户输入的编码,检索与所述编码对应的候选词;    判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。

【技术特征摘要】
1、一种文字输入过程中的自动校对方法,其特征在于,包括以下步骤为预设编码生成语境词,所述语境词包括语境参数和文字内容,所述语境参数至少包括语境标记;将所述语境词作为所述预设编码的首选候选词;接收用户输入的编码,检索与所述编码对应的候选词;判断用户选择的候选词是否属于语境词,如果属于语境词,就提取所述候选词的文字内容并输出所述文字内容;如果不属于语境词,就输出该候选词。2、 如权利要求1所述的自动校对方法,其特征在于语境词的语境参数还包括作用周期,用于表示所述语境词的有效期间; 所述将语境词作为首选候选词的步骤包括将所述语境词添加到所述预设编码的原有的候选词列表;所述自动校对方法还包括删除超出有效期间的语境词,并恢复与该语境词对应的预设编码的原有的候选词列表。3、 如权利要求2所述的自动校对方法,其特征在于,语境词的作用周期 包括即时周期,作用周期为即时周期的语境词称为即时语境词;所述自动校对方法包括在输出即时语境词的文字内容之后,删除所有的 即时语境词。4、 如权利要求2所述的自动校对方法,其特征在于,语境词的作用周期 包括句子周期,作用周期为句子周期的语境词称为句子语境词;所述自动校对方法包括在用户输入预设的标点符号之后,删除所有的句 子语境词。5、 如权利要求1至4中任意一项所述的自动校对方法,其特征在于 语境词的语境参数还包括校对信息,...

【专利技术属性】
技术研发人员:杨盛
申请(专利权)人:杨盛
类型:发明
国别省市:13[中国|河北]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1