当前位置: 首页 > 专利查询>微软公司专利>正文

语言无关的概率内容匹配制造技术

技术编号:10505381 阅读:149 留言:0更新日期:2014-10-08 10:21
内容被接收,并针对用于标识一类型的内容的规则来进行比较。每一规则具有分割和非分割的模式。内容针对模式进行匹配,并被分配置信分数,如果内容匹配分割模式则置信分数较高,如果内容匹配非分割模式则置信分数较低。

【技术实现步骤摘要】
【国外来华专利技术】语言无关的概率内容匹配 背景 诸如英语等许多语言使得词语由文本中的空格间隔。在这些类型的语言中,需要 词语在文本中得到标识的任何技术是相当直接的。这些空格被称为相邻词语之间的分隔 符。这些类型的语言被称为空格分隔语言或分割语言。 然而,诸如汉语、日语、韩语和越南语等其它语言仅被写为均匀隔开的文字的序 列。这些语言在词语之间没有清楚的间隔,因为它们在词语之间没有空格。这些类型的语 言被称为非分割语言。在非分割语言中缺乏已知的分隔符导致对例如关键词的精确检测相 当困难。 类似地,在非分割语言中,完全相同的文字基于周围的上下文可意味着不同的东 西。作为示例,以下文本: 输入信用卡号码。 具有词语分割,这在以下表1中翻译: 表 1 然而,以下文本
语言无关的概率内容匹配

【技术保护点】
一种用于处理文档的内容的计算机实现的方法,包括:访问定义被用于将所述内容标识为第一类型的内容的模式的一组规则,每一规则具有可被分别匹配到以分割语言书写的文本内容和以非分割语言书写的文本内容的分割和非分割模式;针对每一规则中的所述模式匹配所述文档的所述内容,而无论所述文档的所述内容是以分割语言还是以非分割语言书写,以确定所述文档中的所述内容是否是所述第一类型的内容;基于所述文档的所述内容匹配分割模式还是非分割模式,生成与关于所述文档的所述内容是否是所述第一类型的内容的判断相对应的置信分数;基于所述关于所述文档的所述内容是否是所述第一类型的内容的判断以及所述相应的置信分数,处理所述文档的所述内容。

【技术特征摘要】
【国外来华专利技术】2012.02.07 US 13/367,4691. 一种用于处理文档的内容的计算机实现的方法,包括: 访问定义被用于将所述内容标识为第一类型的内容的模式的一组规则,每一规则具有 可被分别匹配到以分割语言书写的文本内容和以非分割语言书写的文本内容的分割和非 分割模式; 针对每一规则中的所述模式匹配所述文档的所述内容,而无论所述文档的所述内容是 以分割语言还是以非分割语言书写,以确定所述文档中的所述内容是否是所述第一类型的 内容; 基于所述文档的所述内容匹配分割模式还是非分割模式,生成与关于所述文档的所述 内容是否是所述第一类型的内容的判断相对应的置信分数; 基于所述关于所述文档的所述内容是否是所述第一类型的内容的判断以及所述相应 的置信分数,处理所述文档的所述内容。2. 如权利要求1所述的计算机实现的方法,其特征在于,生成置信分数包括: 如果所述文档的所述内容匹配分割模式,则生成较高的置信分数,而如果所述文档的 所述内容匹配非分割模式,则生成较低的置信分数。3. 如权利要求1所述的计算机实现的方法,其特征在于,处理所述文档的所述内容包 括: 如果所述文档中的所述内容是具有充分高的相应置信分数的所述第一类型的内容,根 据第一组处理规则来处理所述文档中的所述内容;以及 否则,根据第二组处理规则处理所述文档的所述内容。4. 如权利要求1所述的计算机实现的方法,其特征在于,匹配包括: 针对每一规则中的所述非分割模式和所述分割模式两者来匹配所述文档的所述内 容; 其中每一模式包括主匹配模式和确证匹配部分,且其中匹配包括: 首先针对给定模式的所述主匹配部分匹配所述文档的所述内容; 如果所述文档的所述内容匹配所述给定模式的所述主匹配部分,则针对所述确证匹配 部分来匹配所述文档的所述内容;以及 如果所述文档的所述内容匹配所述给定模式的所述确证匹配部分,则向所述匹配分配 第一置信分数。5. 如权利要求4所述的计算机实现的方法,其特征在于,所述给定模式的所述确证匹 配部分具有多个确证模式,且其中针对所述确证匹配部分匹配所述文档的所述内容包括: 针对所述多个确证匹配模式中...

【专利技术属性】
技术研发人员:M·甘地C·拉曼纳V·桑卡拉纳拉亚南R·庞特斯菲约
申请(专利权)人:微软公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1