【技术实现步骤摘要】
【国外来华专利技术】从非字符子标记信号中自动检测语言
技术介绍
[0001]计算设备上的文本输入越来越依赖于特定语言的处理来提炼和响应用户意图。这种处理依赖于一个核心假设,即被输入的文本的语言是已知的。当假设的语言与输入的文本不匹配时,这些系统运行很差。为了解决这个问题,系统可以使用预处理步骤来标识传入的文本字符串的语言。
[0002]本文公开的本技术的各方面是针对该一般技术环境而已经被考虑的。此外,尽管已经讨论了一般环境,但是应当理解,本文描述的示例不应当限于背景中所标识的一般环境。
技术实现思路
[0003]提供本公开内容是为了以简化的形式介绍一些概念,这些概念将在下文的具体实施方式部分中进一步描述。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。示例的附加方面、特征和/或优点将在下面的描述中部分地阐述,并且部分地将从描述中变得显而易见,或者可以通过本公开的实践来了解。
[0004]本公开的非限制性示例描述了用于确定输入至计算设备的文本字符串的语言的系统、方法和设备。语言检测应用或服务可以维护针对一种或多种语言的语言检测模型。语言检测模型可以包括:多个前缀的身份(identity),以及与这些前缀相关联的权重(weight),如在语言的语料库中所标识的那样;多个后缀的身份,以及与这些后缀相关联的权重,如在语言的语料库中所标识的那样;多个词首辅音(initial consonant)的身份,以及与这些词首辅音相关联的权重,如在语言的语料库中所标识的那样;多个词尾辅音(fi ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于确定文本字符串的语言的计算机实现的方法,所述计算机实现的方法包括:维护针对第一语言的音节的语言检测模型,所述语言检测模型包括:第一列表,包括来自所述第一语言的语料库的多个词首辅音的身份、以及针对所述多个词首辅音中的每个词首辅音的权重,以及第二列表,包括来自所述第一语言的所述语料库的多个元音序列的身份、以及针对所述多个元音序列中的每个元音序列的权重,以及第三列表,包括来自所述语料库的多个词尾辅音的身份、以及针对所述多个词尾辅音中的每个词尾辅音的权重;将所述语言检测模型应用于所述文本字符串中的单词,其中所述应用包括:迭代地标识所述单词内所有连续的音节;确定被包括在所述单词的所标识的音节中的词首辅音连缀的词首辅音连缀分数,其中所述词首辅音连缀分数对应于所述词首辅音连缀在所述语料库中的频率,确定被包括在所述单词的所标识的所述音节中的元音序列的元音序列分数,其中所述元音序列分数对应于所述元音序列在所述语料库中的频率,以及确定被包括在所述单词的所标识的所述音节中的词尾辅音连缀的词尾辅音连缀分数,其中所述词尾辅音连缀分数对应于所述词尾辅音连缀在所述语料库中的频率;至少根据所述词首辅音连缀分数和所述词尾辅音连缀分数,计算所述文本字符串与所述第一语言之间的语言匹配分数;确定所述语言匹配分数满足阈值;以及基于所述语言匹配分数满足所述阈值的所述确定,执行后续动作。2.根据权利要求1所述的计算机实现的方法,其中所述语言检测模型还包括:第四列表,包括来自所述语料库的多个前缀的身份、以及针对所述多个前缀中的每个前缀的权重。3.根据权利要求2所述的计算机实现的方法,还包括:确定被包括在所述单词中的前缀的前缀分数,其中所述前缀分数对应于所述前缀在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述前缀分数被进一步计算。4.根据权利要求1所述的计算机实现的方法,其中所述语言检测模型还包括:第三列表,包括来自所述语料库的多个后缀的身份、以及针对所述多个后缀中的每个后缀的权重。5.根据权利要求4所述的计算机实现的方法,还包括:确定被包括在所述单词中的后缀的后缀分数,其中所述后缀分数对应于所述后缀在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述后缀分数被进一步计算。6.根据权利要求2所述的计算机实现的方法,还包括:确定被包括在所述单词中的前缀序列的前缀分数,其中所述前缀分数对应于所述前缀
序列在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述前缀分数被进一步计算。7.根据权利要求4所述的计算机实现的方法,还包括:确定被包括在所述单词中的后缀序列的后缀分数,其中所述后缀分数对应于所述后缀序列在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述后缀分数被进一步计算。8.根据权利要求1所述的计算机实现的方法,其中执行所述后续动作包括:将特定于所述第一语言的语言处理引擎应用于所述文本字符串。9.根据权利要求1所述的计算机实现的方法,其中执行所述后续动作包括:将针对所述第一语言的语言包库下载到所述文本字符串最初被输入到的计算设备。10.根据权利要求1所述的计算机实现的方法,其中针对所述第一语言的所述语言包库包括语言嵌入库。11.根据权利要求1所述的计算机实现的方法,还包括:确定所述单词的后缀与所述单词的前缀之间的交叉标记分数;并且其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述交叉标记分数被进一步计算。12.一种用于确定文本字符串的语言的系统,包括:存储器,用于存储可执行程序代码;以及处理器,功能性地耦合到所述存储器,所述处理器响应于被包含在所述程序代码中的计算机可执行指令,并且能够...
【专利技术属性】
技术研发人员:A,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。