文本数据的自动标记制造技术

技术编号:40469714 阅读:41 留言:0更新日期:2024-02-22 23:25
在此描述的技术通过使用可能不是在请求的类上训练的生成模型来确定候选文本是否在该请求的类中。本技术可以使用主要在无监督模式下训练的模型,而不需要大量标签类的手动用户输入示例。可以从候选文本和标签产生语义丰富的标签文本的正例。同样,该技术可以从候选文本和标签产生语义丰富的标签文本的负例。标记服务利用生成模型来产生生成结果,该结果估计标签适当地应用于候选文本的可能性。在另一方面,该技术针对一种用于获得类似于候选文本的语义丰富示例的方法。

【技术实现步骤摘要】
【国外来华专利技术】


技术介绍

1、现代的搜索技术在简单性和易用性方面取得了巨大的进步。然而,尽管这些变化是有益的,但它们通常在两个重要方面受到限制。首先,这些方法依赖于用户提供正确的、具体的名词或关键词,通过找到使用这些关键词并具有高度相关性的文档来接收一组与主题相关的结果。如果编写查询的人的词汇和经验有限,在用户找到他从一开始就应该使用的名词之前,可能需要经历数小时的尝试和失败。如果用户不知道出现在他想研究的主题索引中的关键词,他不太可能在不经历痛苦的试错过程的情况下获得与主题相关的结果。

2、其次,通常可获得的搜索技术一般只触及相关文档的表面。可能存在许多更相关的文档。但是,这些文档使用不同的术语、不同的词汇和表达。因此,这些文档在与用户查询的相关性方面得分不会很高。

3、这两个限制部分是由于过去对标记语言数据的尝试失败的结果。现有的方法不符合用户定义,它们使用的名词分类法对于执行搜索的用户来说不一定是已知或有意义的。手动标记系统的开发需要用户大量的处理能力和成本,并且它们通常不可用于搜索过程或搜索过程的索引。


>

技术实本文档来自技高网...

【技术保护点】

1.一种用于确定类标签与文本之间对应关系的方法,包括:

2.根据权利要求1所述的方法,其中所述标签概率估计是根据与标签相对应的所述生成文本的令牌概率来确定的。

3.根据权利要求2所述的方法,其中所述标签是正标签或反标签。

4.根据权利要求1所述的方法,其中所述标签概率估计是根据与所述标签描述的关键词或反标签的关键词相对应的所述生成文本的令牌概率来确定的。

5.根据权利要求1所述的方法,其中用于所述搜索引擎的搜索引擎技术选自由基于规则的搜索、基于语义接近度的语义搜索或使用转换模型的上下文搜索组成的组。

6.根据权利要求1所述的方法...

【技术特征摘要】
【国外来华专利技术】

1.一种用于确定类标签与文本之间对应关系的方法,包括:

2.根据权利要求1所述的方法,其中所述标签概率估计是根据与标签相对应的所述生成文本的令牌概率来确定的。

3.根据权利要求2所述的方法,其中所述标签是正标签或反标签。

4.根据权利要求1所述的方法,其中所述标签概率估计是根据与所述标签描述的关键词或反标签的关键词相对应的所述生成文本的令牌概率来确定的。

5.根据权利要求1所述的方法,其中用于所述搜索引擎的搜索引擎技术选自由基于规则的搜索、基于语义接近度的语义搜索或使用转换模型的上下文搜索组成的组。

6.根据权利要求1所述的方法,其中基于所述生成文本确定标签概率估计包括使用应用于第一标签分数的第一权重和应用于第二标签分数的第二权重,其中所述第一标签分数基于所述生成文本,所述第...

【专利技术属性】
技术研发人员:M·塞瓦克R·K·R·波洛里W·布卢姆陈柏安李伟生S·S·阿查里雅C·鲁德尼克M·A·贝瑟M·德里尼克刘思翃
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1