用于组织和处理基于特征的数据结构的系统和方法技术方案

技术编号：16705156 阅读：68 留言：0更新日期：2017-12-02 19:09

一种用于组织和处理基于特征的数据结构的方法，该数据结构可用在语言拼写检查和自动校正中，该方法包括：基于共同特征的不同值，将原始词典划分成子词典，共同特征例如高频词；接收包含错误的输入文本；由输入的人类可读文本确定子词典选择共同特征；基于确定的子词典选择特征选择子词典；执行选择的子词典中的第一匹配，其中，如果输入文本中的错误附近的字符、单词或短语与子词典中的字符、单词或短语之间的相似度在阈值以上，则找到了匹配；如果找到了唯一匹配，则返回结果作为纠正错误的输出；否则，利用上升的阈值执行第二匹配，并且重复第二匹配，直到找到唯一匹配。

Systems and methods used to organize and process feature based data structures

For an organization and the data processing method based on structure feature, the data structure used in the language spell checking and automatic correction, the method comprises: a common feature of different values based on the original dictionary is divided into sub dictionary, common features such as high frequency words; receiving packets containing text input by the input of human error; to determine the subdictionary selection readable text common feature; determine the subdictionary selection feature selection based on the implementation of the first dictionary; matching, selection of sub dictionaries which, if input errors in the text near the characters, words or phrases and characters in the dictionary, word or phrase similarity between the above threshold, is found matching; if you find the only match, then return the result as error correcting output; otherwise, the implementation of the second, with the rise of the threshold, and And repeat the second match until the only match is found.

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】用于组织和处理基于特征的数据结构的系统和方法
本专利技术通常涉及用于组织电子数据的方法和系统。更具体地说，本专利技术通常涉及电子词典的应用和使用、语言错误检测和修正，例如拼写检查和自动校正。
技术介绍
移动电子设备的激增允许在我们的日常生活中瞬时收集大量的数字数据。这些数字数据中的大部分要被处理，并且最终以图形和文本格式(例如数字新闻、瞬时图像捕获和文本信息)显示出来。将以二进制和/或机器可读格式收集或捕获的这些原始数字数据转换为人类可读文本的处理可包含某些数据解码步骤、其他特定的转换步骤(诸如光学字符识别(OCR))和/或语言翻译。然而，这些数据处理过程不是无差错的，并且往往会导致错误的字符和单词，甚至难以辨认的文字。因此，需要有语言错误检测和修正(例如拼写检查和自动校正)的附加步骤。常规拼写检查和自动校正是占用大量资源的计算机操作，它需要大量的中央处理单元(CPU)处理周期和易失性存储空间。在诸如智能手机的移动计算设备中，CPU处理能力和存储空间两者都比普通计算机更加有限。另一方面，拼写检查和自动校正的用户体验需要实时性能和高精度。因此，需要能更有效使用计算资源的一种更好的系统和/或方法，该系统和/或方法用来组织和处理由原始数据产生的输入文本和用于拼写检查和自动校正该输入文本的词典。
技术实现思路
本专利技术的目的是提供一种用于组织和处理基于特征的数据结构的系统和方法，该数据结构可用于语言拼写检查和自动校正。当在电子电路中实现时，这种系统和方法基本上比常规拼写检查器和自动校正软件或设备具有更少的CPU和易失性存储空间需求。根据本专利技术的一方面，原始数字词...
用于组织和处理基于特征的数据结构的系统和方法

【技术保护点】
一种用于组织和处理语言拼写检查和自动校正中的基于特征的数据结构的系统，包括：计算机处理器，其被配置为：使用显式划分或隐式划分将原始词典划分为两个或更多个子词典，其中每个子词典的大小都小于原始词典；接收输入的人类可读文本，该输入的人类可读文本包含一个或多个错误；由输入的人类可读文本确定子词典选择共同特征或选择标准；基于确定的子词典选择特征或选择标准选择子词典；执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第一匹配，其中，如果输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与子词典中的候选匹配字符、单词或短语之间的相似度在相似程度阈值以上，则找到了匹配；如果找到了唯一匹配，则返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出；否则，如果找到不止一个候选匹配，则利用上升的相似程度阈值执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第二匹配；并且重复第二匹配，直到找到唯一匹配，并返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出。

【技术特征摘要】
【国外来华专利技术】2016.12.09 US 15/374,4791.一种用于组织和处理语言拼写检查和自动校正中的基于特征的数据结构的系统，包括：计算机处理器，其被配置为：使用显式划分或隐式划分将原始词典划分为两个或更多个子词典，其中每个子词典的大小都小于原始词典；接收输入的人类可读文本，该输入的人类可读文本包含一个或多个错误；由输入的人类可读文本确定子词典选择共同特征或选择标准；基于确定的子词典选择特征或选择标准选择子词典；执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第一匹配，其中，如果输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与子词典中的候选匹配字符、单词或短语之间的相似度在相似程度阈值以上，则找到了匹配；如果找到了唯一匹配，则返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出；否则，如果找到不止一个候选匹配，则利用上升的相似程度阈值执行输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短语的第二匹配；并且重复第二匹配，直到找到唯一匹配，并返回选择的子词典中的唯一匹配的字符、单词或短语作为纠正错误的输出。2.根据权利要求1所述的系统，其中，所述显式划分包括：识别原始词典中的字符、单词和短语之间的共同特征；和根据所识别的共同特征的差异值，将原始词典中的字符、单词和短语划分为两个或更多个子词典。3.根据权利要求2所述的系统，其中，所述共同特征是高频词。4.根据权利要求2所述的系统，其中，所述共同特征是字符、单词和短语的长度。5.根据权利要求2所述的系统，其中，所述共同特征对地理属性、学科、情感以及字符、单词和短语的重要性等级中的至少一种上下文敏感。6.根据权利要求1所述的系统，其中，隐式划分包括：使用字符、单词和短语的Unicode值，确定原始词典中的每个字符、单词和短语的向量空间；确定原始词典中的字符、单词和短语的向量空间的中心值；和将原始词典中的字符、单词和短语划分成两个或更多个子词典，使得每个子词典包含向量空间中心在特定值范围内的字符、单词和短语。7.根据权利要求1所述的系统，其中，通过在比较下确定输入的人类可读文本中的错误附近的一个或多个字符、单词或短语与选择的子词典中的字符、单词和短...

【专利技术属性】
技术研发人员：刘扬，冯超，招琸珩，吴康恒，雷志斌，
申请(专利权)人：香港应用科技研究院有限公司，
类型：发明
国别省市：中国香港,81

全部详细技术资料下载我是这个专利的主人