序列标注工具的训练方法和装置制造方法及图纸

技术编号:13674615 阅读:138 留言:0更新日期:2016-09-07 23:58
本发明专利技术提出一种序列标注工具的训练方法和装置。其中,该训练方法包括:获取用户的历史行为数据,其中,历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及根据历史行为数据对序列标注工具进行训练。本发明专利技术实施例的训练方法提高了序列标注工具提供服务的准确性,实现了对序列标注工具的及时更新,提升了用户使用体验。

【技术实现步骤摘要】

本专利技术涉及搜索引擎
,尤其涉及一种序列标注工具的训练方法的装置。
技术介绍
序列标注工具被广泛应用于自然语言处理,例如分词、词性标注、命名实体识别等工具中,搜索引擎又依赖于自然语言处理的工具,搜索引擎在从大量网页中检索出用户所输入的搜索信息对应的文档时,搜索引擎需要先对用户输入的查询搜索信息以及数据库中的文档进行分词,而分词需要用到序列标注工具,分词结果的准确性会在很大程度上影响搜索引擎搜索到的文档的准确性,因此,用于分词、词性标注、命名实体识别等的序列标注工具对搜索引擎的搜索结果存在至关重要的影响。目前,现有的序列标注工具主要有隐马尔科夫模型(HMM),最大熵隐马尔科夫模型(MEMM)以及条件随机场模型(CRF),在训练这些序列标注工具时,需要收集大量的已标注好的语料,然后用这些语料来训练序列标注工具,然而人工标注这些语料需要花费大量的人力和物力。此外,通过人工标注的语料对序列标注工具进行训练,往往不能及时地更新序列标注工具,例如对于分词而言,如果出现新的词汇,往往需要人工重新进行标注,然后重新训练序列标注工具后才能继续使用。此外,不同的搜索引擎对序列标注工具的需求也许是不同的,例如对于分词而言,有些搜索引擎希望分词结果的粒度大一些,有些搜索引擎希望分词结果的粒度小一些,然而序列标注工具的分词粒度完全由用于训练序列标注工具的人工标注的语料所决定,因此不能根据不同的需求做出相应调整。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种序列标注工具的训练方法,该训练方法提高了序列标注工具提供服务的准确性,实现了对序列标注工具的及时更新,提升了用户使用体验。本专利技术的第二个目的在于提出一种序列标注工具的训练装置。为达上述目的,本专利技术第一方面实施例提出了一种序列标注工具的训练方法,包括:获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及根据所述历史行为数据对序列标注工具进行训练。本专利技术实施例的序列标注工具的训练方法,通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,使得训练标注工具和服务提供商提供服务之间不再仅仅是被依赖和依赖关系而是相互依赖的关系,不仅序列标注工具服务准确性的提升能够帮助服务提供商提供服务的服务质量的提升,而且服务提供商提供服务的服务质量的提升也能帮助序列标注工具服务准确性的提升,从而实现了对序列标注工具的及时更新,提升了用户使用体验。为达上述目的,本专利技术第二方面实施例提出了一种序列标注工具的训练装置,包括:第一获取模块,用于获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及第一训练模块,用于根据所述历史行为数据对序列标注工具进行训练。本专利技术实施例的序列标注工具的训练装置,通过用户的历史行为数据不断的对序列标注工具进行优化,逐渐提高序列标注工具提供服务的准确性,使得训练标注工具和服务提供商提供服务之间不再仅仅是被依赖和依赖关系而是相互依赖的关系,不仅序列标注工具服务准确性的提升能够帮助服务提供商提供服务的服务质量的提升,而且服务提供商提供服务的服务质量的提升也能帮助序列标注工具服务准确性的提升,从而实现了对序列标注工具的及时更新,提升了用户使用体验。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一个实施例的序列标注工具的训练方法的流程图;图2是本专利技术一个具体实施例的序列标注工具的训练方法的流程图;图3是本专利技术中单搜索引擎指导序列标注工具的示意图;图4是本专利技术中多搜索引擎指导序列标注工具的示意图;图5是本专利技术一个实施例的序列标注工具的训练装置的结构示意图;以及图6是本专利技术一个具体实施例的序列标注工具的训练装置的结构示意图具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本专利技术的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本专利技术的实施例所属
的技术人员所理解。图1是本专利技术一个实施例的序列标注工具的训练方法的流程图。如图1所示,序列标注工具的训练方法包括:S101,获取用户的历史行为数据,其中,历史行为数据包括用户对服务提供商向用户提供的信息页面的反馈行为。其中,服务提供商向用户提供的服务包括搜索服务、文本处理服务、推荐服务、语音识别服务等,而提供这些服务的搜索引擎、文本处理服务器、推荐服务器或者是语音识别服务器均依赖于序列标注工具,通过序列标注工具为这些服务器提供例如分词,词性标注、语音识别等服务。应当理解的是,序列标注工具还可以接收其它依赖于序列标注工具提供服务的产品提供的反馈进行优化训练,而提供给产品反馈的外部可以是真实的用户,也可以是该产品的训练数据集。在初始时,训练序列标注工具所使用额语料比较少,因此上述服务器在利用训练标注工具为用户提供服务时,提供服务并不是十分精准。为此,本专利技术中在序列标注工具为上述服务器提供服务时,上述服务器也为序列标注工具提供用户的反馈,帮助对序列标注工具进行优化。具体地,在服务提供商为用户提供服务时,上述服务器将经过序列标注工具处理后的信息添加至信息页面中提供给用户,例如,用户在使用搜索引擎进行搜索时,搜索引擎将搜索结果页面返回给用户查看,或者在用户使用语音识别服务器进行语音识别时,语音识别服务器将识别后的文本内容添加至信息页面中返回给用户查看。进而,
服务器获取用户针对该页面信息的反馈行为,例如,用户对搜索引擎返回的搜索结果的点击操作等,将用户对页面信息的反馈行为,这些反馈行为即是用户的历史行为数据。S102,根据历史行为数据对序列标注工具进行训练。具体地,根据用户针对页面信息的反馈行为可以对序列标注工具进行进一步的训练,以对序列标注工具进行优化。也就是说,随着不断地迭代,序列标注工具从服务器获取到大量的用户历史行为数据,根据历史行为数据对序列标注工具进行优化,渐渐提高序列标注工具的分词、词性标注、语音识别等功能的准确性。应当理解的是,上述通过服务器向序列标注工具提供用户的反馈行为的方式仅仅是示例性的,序列标注工具还可以从服务器的训练集中获取一个训练样本,对训练样本进行本文档来自技高网
...

【技术保护点】
一种序列标注工具的训练方法,其特征在于,包括以下步骤:获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及根据所述历史行为数据对序列标注工具进行训练。

【技术特征摘要】
1.一种序列标注工具的训练方法,其特征在于,包括以下步骤:获取用户的历史行为数据,其中,所述历史行为数据包括用户对服务提供商向所述用户提供的信息页面的反馈行为;以及根据所述历史行为数据对序列标注工具进行训练。2.如权利要求1所述的序列标注工具的训练方法,其特征在于,还包括:获取人工标注的语料,并根据所述人工标注的语料训练所述序列标注工具。3.如权利要求1或2所述的序列标注工具的训练方法,其特征在于,在获取用户的历史行为数据之前,还包括:接收服务请求,其中,所述服务请求包括待标注信息;以及通过所述序列标注工具对所述待标注信息进行处理,并将所述处理结果生成所述信息页面。4.如权利要求3所述的序列标注工具的训练方法,其特征在于,对所述待标注信息进行处理包括对所述待标注信息进行分词、词性标注、语音识别中的一种或者多种。5.如权利要求4所述的序列标注工具的训练方法,其特征在于,当对所述待标注信息进行分词时,通过所述序列标注工具对所述待标注信息进行处理具体包括:通过所述序列标注工具对所述待标注信息进行切分,并获取切分后的多组分词序列,其中,每个分词序列具有不同的优先级。6.如权利要求5所述的序列标注工具的训练方法,其特征在于,所述根据所述历史行为数据对序列标注工具进行训练具体包括:获取所述用户对所述信息页面的反馈行为,并获取所述反馈行为的权重值;以及根据所述反馈行为的权重值对所述多组分词序列的优先级进行调整。7...

【专利技术属性】
技术研发人员:方晓敏吴泽衡石磊周坤胜詹金波王凡何径舟
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1