用于组织和处理基于特征的数据结构的系统和方法技术方案

技术编号:16705156 阅读:68 留言:0更新日期:2017-12-02 19:09
一种用于组织和处理基于特征的数据结构的方法,该数据结构可用在语言拼写检查和自动校正中,该方法包括:基于共同特征的不同值,将原始词典划分成子词典,共同特征例如高频词;接收包含错误的输入文本;由输入的人类可读文本确定子词典选择共同特征;基于确定的子词典选择特征选择子词典;执行选择的子词典中的第一匹配,其中,如果输入文本中的错误附近的字符、单词或短语与子词典中的字符、单词或短语之间的相似度在阈值以上,则找到了匹配;如果找到了唯一匹配,则返回结果作为纠正错误的输出;否则,利用上升的阈值执行第二匹配,并且重复第二匹配,直到找到唯一匹配。

Systems and methods used to organize and process feature based data structures

For an organization and the data processing method based on structure feature, the data structure used in the language spell checking and automatic correction, the method comprises: a common feature of different values based on the original dictionary is divided into sub dictionary, common features such as high frequency words; receiving packets containing text input by the input of human error; to determine the subdictionary selection readable text common feature; determine the subdictionary selection feature selection based on the implementation of the first dictionary; matching, selection of sub dictionaries which, if input errors in the text near the characters, words or phrases and characters in the dictionary, word or phrase similarity between the above threshold, is found matching; if you find the only match, then return the result as error correcting output; otherwise, the implementation of the second, with the rise of the threshold, and And repeat the second match until the only match is found.

【技术实现步骤摘要】
【国外来华专利技术】用于组织和处理基于特征的数据结构的系统和方法
本专利技术通常涉及用于组织电子数据的方法和系统。更具体地说,本专利技术通常涉及电子词典的应用和使用、语言错误检测和修正,例如拼写检查和自动校正。
技术介绍
移动电子设备的激增允许在我们的日常生活中瞬时收集大量的数字数据。这些数字数据中的大部分要被处理,并且最终以图形和文本格式(例如数字新闻、瞬时图像捕获和文本信息)显示出来。将以二进制和/或机器可读格式收集或捕获的这些原始数字数据转换为人类可读文本的处理可包含某些数据解码步骤、其他特定的转换步骤(诸如光学字符识别(OCR))和/或语言翻译。然而,这些数据处理过程不是无差错的,并且往往会导致错误的字符和单词,甚至难以辨认的文字。因此,需要有语言错误检测和修正(例如拼写检查和自动校正)的附加步骤。常规拼写检查和自动校正是占用大量资源的计算机操作,它需要大量的中央处理单元(CPU)处理周期和易失性存储空间。在诸如智能手机的移动计算设备中,CPU处理能力和存储空间两者都比普通计算机更加有限。另一方面,拼写检查和自动校正的用户体验需要实时性能和高精度。因此,需要能更有效使用计算资源的一种更好的系统和/或方法,该系统和/或方法用来组织和处理由原始数据产生的输入文本和用于拼写检查和自动校正该输入文本的词典。
技术实现思路
本专利技术的目的是提供一种用于组织和处理基于特征的数据结构的系统和方法,该数据结构可用于语言拼写检查和自动校正。当在电子电路中实现时,这种系统和方法基本上比常规拼写检查器和自动校正软件或设备具有更少的CPU和易失性存储空间需求。根据本专利技术的一方面,原始数字词典首先被划分成多个子词典。该划分可以是显式的或者是隐式的。在显式划分方法中,针对共同特征识别原始数字词典中的内容。一种可能的共同特征是频繁使用的字符、单词和短语(高频词)。另一种共同特征是字符、单词和短语的长度。其他共同特征可以是上下文敏感的,例如地理属性、学科、情感以及字符、单词和短语的重要性等级。因此,根据作为索引的共同特征的不同值,可将原始词典显式划分成两个或更多个子词典。子词典可通过包含一些相同的字符、单词和短语而相互重叠,但每个子词典的大小都小于原始词典。在一个实施例中,组织每个子词典中的内容以形成子词典层次结构。例如,以层次结构树的方式组织包含在每个子词典中的字符、单词和短语,其中每个顶部节点包含具有至少一个共同特征的字符、单词和短语,并且每个下级节点包含与之紧邻的上方节点的具有更多共同特征的字符、单词和短语的子集。随着分层节点越来越往下,子集会变得越来越小,但会具有更多共性,最终,最底层的节点只包含单个字符、单词和短语。在另一个实施例中,一种隐式划分方法是,通过确定每个字符、单词和短语的向量空间,首先识别出原始词典的内容。计算出每个向量空间的数学中心。字符、单词或短语的Unicode值可用在矢量确定中。然后生成子词典,每个子词典都包含向量空间中心在特定值范围内的字符、单词和短语。根据本专利技术的另一方面,处理输入数据流以产生人类可读文本。在人类可读文本包含一个或多个错误的情况下,一个或多个错误中的每个错误附近的一个或多个字符、单词或短语可以在显式划分词典的情况下用于确定选择子目录时的选择特征,或者可以在隐式划分词典的情况下用于确定选择向量空间中心。那么,一个或多个错误中的每个错误附近的一个或多个字符、单词或短语,连同错误一起被用作输入;并且非错误字符、单词或短语充当定位点,以在子词典中找到匹配的字符、单词或短语作为纠正错误的输出。通过子词典层次结构树来横向执行输入字符、单词或短语与子词典中的字符、单词和短语的比较。在一个实施例中,子词典中的字符、单词或短语的匹配不需要是精确的。可根据在阈值以上的相似程度(例如具有在Unicode距离内的输入字符、单词或短语与候选输出之间的Unicode差异)找到匹配。如果在子词典中找到输入字符、单词或短语的唯一匹配,则输出是子词典中的匹配的字符、单词或短语。然而,可能会找到在相似程度阈值以上的多个匹配的候选输出。在这种情况下,可利用向上调整的相似程度阈值执行第二轮比较,向上调整的相似程度阈值意味着需要更高的相似程度。重复此步骤,直到只找到一个结果匹配进行输出。由于每个子词典的大小都小于原始词典,并且只有选择的子词典用于匹配输入字符、单词或短语,所以用于加载选择的子词典的易失性存储空间比用于加载整个原始词典的易失性存储空间小。这实现了本专利技术的比常规拼写检查器和自动更正软件或设备需要更少的易失性存储空间的一个目的。由于以层次结构的方式组织子词典的内容,因此允许实施高效的搜索算法以用于输入字符、单词或短语与子词典的比较;如此,实现了本专利技术的另一目的。本专利技术可用于所有的书面语言,包括字母表、音节表和语标类别的书面语言。根据本专利技术的用于组织和处理基于特征的数据结构的系统和方法的实施例也可应用于除书面语言之外的数据类型,例如图像和声音。附图说明参考附图,在下文中更详细地描述了本专利技术的实施例,其中:图1描述了根据本专利技术的一个实施例的用于组织和处理基于特征的数据结构的系统的逻辑框图,所述数据结构用在语言拼写检查和自动校正中;图2描述了根据本专利技术的一个实施例的通过显式划分方法将示例英文词典划分成子词典的逻辑框图;图3描述了根据本专利技术的一个实施例的通过显式划分方法将示例中文词典划分成子词典的逻辑框图;图4描述了根据本专利技术的一个实施例的通过隐式划分方法将示例中文词典划分为子词典的逻辑框图;图5示出了根据本专利技术的一个实施例的用于组织和处理基于特征的数据结构的方法的流程图,所述数据结构用在语言拼写检查和自动校正中;和图6描述了根据本专利技术的一个实施例的通过显式划分方法将图像集合划分成子集合的逻辑框图。具体实施方式在下面的描述中,将阐述作为优选实例的、用于组织和处理基于特征的数据结构的系统和方法,所述数据结构可用在语言拼写检查和自动校正以及类似任务中。对本领域的技术人员而言显而易见的是,可以在不偏离本专利技术的范围和精神的情况下进行改进,包括附加和/或替换。为了不使本专利技术模糊不清,可省略具体细节;然而,本公开是为了使本领域的技术人员能够在不过度实验的情况下实施本文的教导。参考图1,根据本专利技术的一个实施例,用于组织和处理基于特征的数据结构的系统实施在计算设备101中,该计算设备101可以是移动计算设备,其至少包括用于执行和存储在执行方法过程时所需的机器指令的专门配置的CPU以及充足的易失且非瞬态存储器。该系统采用了可存储在非瞬态存储器空间以进行组织处理的词典102以及已被处理和转换为人类可读文本但包含一个或多个实时或非实时错误的输入数据流103,并且输出校正的人类可读文本输出104。根据另一个实施例,用于组织和处理基于特征的数据结构的方法可被实现为由专用或通用CPU执行的一组机器指令(或软件模块)。根据本专利技术的一方面,原始数字词典首先被划分成多个子词典。该划分可以是显式的或者是隐式的。在显式划分方法中,针对共同特征来识别原始数字词典的内容。一种可能的共同特征是频繁使用的字符、单词和短语(高频词)。另一种共同特征是字符、单词和短语的长度。其他共同特征可以是上下文敏感的,例如地理属性、学科、情感、以及字符、单词和短语的重要性的等级。因此,基于共同特本文档来自技高网...
用于组织和处理基于特征的数据结构的系统和方法

【技术保护点】
一种用于组织和处理语言拼写检查和自动校正中的基于特征的数据结构的系统,包括:计算机处理器,其被配置为:使用显式划分或隐式划分将原始词典划分为两个或更多个子词典,其中每个子词典的大小都小于原始词典;接收输入的人类可读文本,该输入的人类可读文本包含一个或多个错误;由输入的人类可读文本确定子词典选择共同特征或选择标准;基于确定的子词典选择特征或选择标准选择子词典;执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第一匹配,其中,如果输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与子词典中的候选匹配字符、单词或短语之间的相似度在相似程度阈值以上,则找到了匹配;如果找到了唯一匹配,则返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出;否则,如果找到不止一个候选匹配,则利用上升的相似程度阈值执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第二匹配;并且重复第二匹配,直到找到唯一匹配,并返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出。

【技术特征摘要】
【国外来华专利技术】2016.12.09 US 15/374,4791.一种用于组织和处理语言拼写检查和自动校正中的基于特征的数据结构的系统,包括:计算机处理器,其被配置为:使用显式划分或隐式划分将原始词典划分为两个或更多个子词典,其中每个子词典的大小都小于原始词典;接收输入的人类可读文本,该输入的人类可读文本包含一个或多个错误;由输入的人类可读文本确定子词典选择共同特征或选择标准;基于确定的子词典选择特征或选择标准选择子词典;执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第一匹配,其中,如果输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与子词典中的候选匹配字符、单词或短语之间的相似度在相似程度阈值以上,则找到了匹配;如果找到了唯一匹配,则返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出;否则,如果找到不止一个候选匹配,则利用上升的相似程度阈值执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第二匹配;并且重复第二匹配,直到找到唯一匹配,并返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出。2.根据权利要求1所述的系统,其中,所述显式划分包括:识别原始词典中的字符、单词和短语之间的共同特征;和根据所识别的共同特征的差异值,将原始词典中的字符、单词和短语划分为两个或更多个子词典。3.根据权利要求2所述的系统,其中,所述共同特征是高频词。4.根据权利要求2所述的系统,其中,所述共同特征是字符、单词和短语的长度。5.根据权利要求2所述的系统,其中,所述共同特征对地理属性、学科、情感以及字符、单词和短语的重要性等级中的至少一种上下文敏感。6.根据权利要求1所述的系统,其中,隐式划分包括:使用字符、单词和短语的Unicode值,确定原始词典中的每个字符、单词和短语的向量空间;确定原始词典中的字符、单词和短语的向量空间的中心值;和将原始词典中的字符、单词和短语划分成两个或更多个子词典,使得每个子词典包含向量空间中心在特定值范围内的字符、单词和短语。7.根据权利要求1所述的系统,其中,通过在比较下确定输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短...

【专利技术属性】
技术研发人员:刘扬冯超招琸珩吴康恒雷志斌
申请(专利权)人:香港应用科技研究院有限公司
类型:发明
国别省市:中国香港,81

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1