从非字符子标记信号中自动检测语言制造技术

技术编号:37724377 阅读:12 留言:0更新日期:2023-06-02 00:26
在本公开的非限制性示例中,呈现了用于确定文本字符串的语言的系统、方法和设备。可以维护语言检测模型。语言检测模型可以包括针对词首辅音和词尾辅音的身份和权重,针对前缀和后缀的身份和权重,以及针对元音序列的身份和权重,其中每个身份都是从训练语料库中导出的。权重可以对应于文本单元在语料库中的频率。可以接收文本字符串,并且可以确定文本字符串与语言检测模型的语言之间的匹配分数。匹配分数可以基于针对文本字符串中每个单词的词首辅音分数和词尾辅音分数、前缀分数和后缀分数和/或元音序列分数。如果匹配分数满足阈值,则可以执行与该语言相关联的后续动作。则可以执行与该语言相关联的后续动作。则可以执行与该语言相关联的后续动作。

【技术实现步骤摘要】
【国外来华专利技术】从非字符子标记信号中自动检测语言

技术介绍

[0001]计算设备上的文本输入越来越依赖于特定语言的处理来提炼和响应用户意图。这种处理依赖于一个核心假设,即被输入的文本的语言是已知的。当假设的语言与输入的文本不匹配时,这些系统运行很差。为了解决这个问题,系统可以使用预处理步骤来标识传入的文本字符串的语言。
[0002]本文公开的本技术的各方面是针对该一般技术环境而已经被考虑的。此外,尽管已经讨论了一般环境,但是应当理解,本文描述的示例不应当限于背景中所标识的一般环境。

技术实现思路

[0003]提供本公开内容是为了以简化的形式介绍一些概念,这些概念将在下文的具体实施方式部分中进一步描述。该
技术实现思路
不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。示例的附加方面、特征和/或优点将在下面的描述中部分地阐述,并且部分地将从描述中变得显而易见,或者可以通过本公开的实践来了解。
[0004]本公开的非限制性示例描述了用于确定输入至计算设备的文本字符串的语言的系统、方法和设备。语言检测应用或服务可以维护针对一种或多种语言的语言检测模型。语言检测模型可以包括:多个前缀的身份(identity),以及与这些前缀相关联的权重(weight),如在语言的语料库中所标识的那样;多个后缀的身份,以及与这些后缀相关联的权重,如在语言的语料库中所标识的那样;多个词首辅音(initial consonant)的身份,以及与这些词首辅音相关联的权重,如在语言的语料库中所标识的那样;多个词尾辅音(final consonant)的身份,以及与这些词尾辅音相关联的权重,如在语言的语料库中所标识的那样;以及元音序列的身份,以及与这些元音序列相关联的权重,如在语言的语料库中所标识的那样。与那些部分单词(例如,“标记(token)”)中的每个单词相关联的权重可以对应于部分单词在语料库中的频率(例如,频率越高,权重越高)。
[0005]当接收到文本字符串输入时,可以将一个或多个语言检测模型应用于文本字符串。可以基于被包括在文本字符串的单词中的前缀和后缀、被包括在文本字符串的单词中的音节(syllable)来确定文本字符串和与所应用的语言检测模型相对应的每种语言之间的匹配分数,其中,音节被定义为如模型中定义的可选合法的词首辅音序列,后面是由模型定义的强制合法元音序列,后面是如模型中定义的可选合法的词尾辅音序列。合法的单词或词干是仅由连续的合法音节序列组成的。在一些示例中,如果语言检测模型的匹配分数满足阈值,则可以确定文本字符串是对应的语言。在另外的示例中,文本字符串可以被确定为相关于与最高得分的语言检测模型的匹配分数相关联的语言。
附图说明
[0006]参考以下附图描述了非限制性和非穷举性示例:
[0007]图1是示出用于确定文本字符串的语言以及基于该确定执行一个或多个后续动作的示例分布式计算环境的示意图。
[0008]图2是示出语言检测模型的训练的计算环境的示意图。
[0009]图3示出了用于由被包含在语言检测训练引擎中的多个处理引擎处理来自语料库的示例性单词的计算环境。
[0010]图4示出了语言检测模型的各种组件。
[0011]图5A是用于使用基于音节的语言检测模型确定文本字符串是否与语言匹配以及基于该确定执行后续动作的方法。
[0012]图5B是用于使用基于词缀的模型确定文本字符串是否与语言匹配以及基于该确定执行后续动作的方法。
[0013]图5C是用于使用基于词缀和基于音节的语言检测模型两者确定文本字符串是否与语言匹配以及基于该确定执行后续动作的方法。
[0014]图5D是用于使用语言检测模型在多种语言中选择最佳语言以及基于该确定执行后续动作的方法。
[0015]图6和图7是可以实践本公开各方面的移动计算设备的简图。
[0016]图8是可以实践本公开各方面的计算设备的示例物理组件的框图。
[0017]图9是可以实践本公开各方面的分布式计算系统的简化框图。
具体实施方式
[0018]将参照附图对各种实施例进行详细描述,其中遍及多个视图中相同的引用编号代表相同的部件和组件。对各种实施例的引用在此并不限制所附权利要求的范围。此外,本说明书中阐述的任何示例并不旨在进行限制,而仅阐述了针对所附权利要求的许多可能实施例中的一些实施例。
[0019]本公开的非限制性示例描述了用于确定输入到计算设备构造中的文本字符串的语言的系统、方法和设备。文本字符串输入到的构造可以包括操作系统外壳构造(shell construct)、应用构造或应用服务(例如,基于云的服务)构造。语言检测服务可以接收利用本文中描述的语言检测模型来分析文本的指示。语言检测服务可以被并入本地计算设备和/或云中,并在其上执行。该指示可以包括确定文本输入之前还没有被当前正在接收文本字符串输入的构造中的用户账户所接收,和/或用户账户还没有为计算设备、应用或服务设置偏好语言。在一些示例中,本文描述的语言检测服务可以简单地周期性地或每当在一个或多个计算构造中接收到文本输入时应用语言检测模型。
[0020]语言检测服务可以包括针对多种语言中的每一种语言的单独的语言检测模型(例如,一个模型针对英语,一个模型针对德语,一个模型针对西班牙语)。每个模型可以包括相同或相似的处理引擎,但是不同的语言学分量(例如,前缀、后缀、元音序列、词首辅音序列、词尾辅音序列、常见单词)的加权列表,有时在本文被称为“标记”。可以训练这些单独的语言模型,使得每个标记的权重与它们在语言中的相对频率相对应,或者更具体地,与它们在模型在语料库上被训练的一个或多个语料库中的相对频率相对应。
[0021]在运行时,当接收到文本字符串输入时,语言检测服务可以将一个或多个语言检测模型应用于文本字符串,以及计算针对字符串中每个单词与所应用的模型所对应的每种
语言的匹配分数。可以针对每个单词的分数进行求和或其他功能性处理,以生成针对文本字符串和语言的总匹配分数。在一些示例中,如果确定文本字符串与语言之间的匹配分数满足或超过阈值,则可以确定该文本字符串肯定是该语言、可能/大概是该语言、或者肯定不是该语言。在其他示例中,语言检测服务可以确定与来自多个语言检测模型的多个分数中的最高排名匹配分数相关联的语言是该文本字符串的语言。
[0022]基于文本字符串大概为特定语言的确定,可以执行各种后续动作。例如,可以将特定语言的语言处理模型(例如,意图确定处理模型、拼写检查处理模型、语法检查处理模型等)应用于文本字符串。应用于特定语言的语言处理模型的类型可以基于接收文本字符串的应用或计算外壳构造来确定。在一些示例中,后续动作可以包括将特定语言的一个或多个语言学库或模型从云数据库下载到接收文本字符串的本地计算设备。
[0023]本文所描述的系统、方法和设备为标识输入文本的语言提供了技术优势。与依赖于长度为N的字符的字符串的频率的传统语言检测模型(诸如n

gram模型)相本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于确定文本字符串的语言的计算机实现的方法,所述计算机实现的方法包括:维护针对第一语言的音节的语言检测模型,所述语言检测模型包括:第一列表,包括来自所述第一语言的语料库的多个词首辅音的身份、以及针对所述多个词首辅音中的每个词首辅音的权重,以及第二列表,包括来自所述第一语言的所述语料库的多个元音序列的身份、以及针对所述多个元音序列中的每个元音序列的权重,以及第三列表,包括来自所述语料库的多个词尾辅音的身份、以及针对所述多个词尾辅音中的每个词尾辅音的权重;将所述语言检测模型应用于所述文本字符串中的单词,其中所述应用包括:迭代地标识所述单词内所有连续的音节;确定被包括在所述单词的所标识的音节中的词首辅音连缀的词首辅音连缀分数,其中所述词首辅音连缀分数对应于所述词首辅音连缀在所述语料库中的频率,确定被包括在所述单词的所标识的所述音节中的元音序列的元音序列分数,其中所述元音序列分数对应于所述元音序列在所述语料库中的频率,以及确定被包括在所述单词的所标识的所述音节中的词尾辅音连缀的词尾辅音连缀分数,其中所述词尾辅音连缀分数对应于所述词尾辅音连缀在所述语料库中的频率;至少根据所述词首辅音连缀分数和所述词尾辅音连缀分数,计算所述文本字符串与所述第一语言之间的语言匹配分数;确定所述语言匹配分数满足阈值;以及基于所述语言匹配分数满足所述阈值的所述确定,执行后续动作。2.根据权利要求1所述的计算机实现的方法,其中所述语言检测模型还包括:第四列表,包括来自所述语料库的多个前缀的身份、以及针对所述多个前缀中的每个前缀的权重。3.根据权利要求2所述的计算机实现的方法,还包括:确定被包括在所述单词中的前缀的前缀分数,其中所述前缀分数对应于所述前缀在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述前缀分数被进一步计算。4.根据权利要求1所述的计算机实现的方法,其中所述语言检测模型还包括:第三列表,包括来自所述语料库的多个后缀的身份、以及针对所述多个后缀中的每个后缀的权重。5.根据权利要求4所述的计算机实现的方法,还包括:确定被包括在所述单词中的后缀的后缀分数,其中所述后缀分数对应于所述后缀在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述后缀分数被进一步计算。6.根据权利要求2所述的计算机实现的方法,还包括:确定被包括在所述单词中的前缀序列的前缀分数,其中所述前缀分数对应于所述前缀
序列在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述前缀分数被进一步计算。7.根据权利要求4所述的计算机实现的方法,还包括:确定被包括在所述单词中的后缀序列的后缀分数,其中所述后缀分数对应于所述后缀序列在所述语料库中的频率;以及其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述后缀分数被进一步计算。8.根据权利要求1所述的计算机实现的方法,其中执行所述后续动作包括:将特定于所述第一语言的语言处理引擎应用于所述文本字符串。9.根据权利要求1所述的计算机实现的方法,其中执行所述后续动作包括:将针对所述第一语言的语言包库下载到所述文本字符串最初被输入到的计算设备。10.根据权利要求1所述的计算机实现的方法,其中针对所述第一语言的所述语言包库包括语言嵌入库。11.根据权利要求1所述的计算机实现的方法,还包括:确定所述单词的后缀与所述单词的前缀之间的交叉标记分数;并且其中所述文本字符串与所述第一语言之间的所述语言匹配分数根据所述交叉标记分数被进一步计算。12.一种用于确定文本字符串的语言的系统,包括:存储器,用于存储可执行程序代码;以及处理器,功能性地耦合到所述存储器,所述处理器响应于被包含在所述程序代码中的计算机可执行指令,并且能够...

【专利技术属性】
技术研发人员:A
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1