搜索文本的标注方法和装置制造方法及图纸

技术编号:14537204 阅读:120 留言:0更新日期:2017-02-02 22:57
本发明专利技术提出一种搜索文本的标注方法和装置,该搜索文本的标注方法包括获取搜索文本的候选分词集;从语义资源库中读取与候选分词集中每个候选分词所匹配的词汇的预设信息;根据预设信息对候选分词集中的候选分词进行标注,得到初始标注结果;获取初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、初始标注结果,以及中间标注结果生成目标标注结果;根据目标标注结果对搜索文本进行标注,其中,标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息。通过本发明专利技术能够有效提高搜索文本标注的精确度。

Method and device for labeling search text

The invention provides a method and apparatus for tagging text search, the search text annotation method includes obtaining a set of candidate text search; read, each candidate word segmentation candidate words from semantic presupposition in information resource library; according to the preset information of the candidate word segmentation candidate set are marked, initial the annotation results; entity segmentation to obtain initial annotation results in proper names and / or word, and according to the preset characteristics of each entity and / or word segmentation names marked by intermediate results; according to the preset rules, each candidate word related information, the initial results, and the intermediate results generated annotation annotation results according to the target; the goal of the annotation of text search results, which include the annotation results: at least one of the candidate target segmentation Tagging information for each candidate word segmentation. The invention can effectively improve the precision of search text annotation.

【技术实现步骤摘要】

本专利技术涉及通信
,尤其涉及一种搜索文本的标注方法和装置
技术介绍
在移动搜索时代,随着移动终端操作界面的缩小和用户传统输入的困难增加,依赖键盘输入且一屏返回十条搜索结果的搜索引擎产品模式已不能满足用户的需求。基于语音、图像的输入模式以及更加精确化、聚合化、推荐化的搜索返回结果,将成为新一代移动搜索产品的“标配”。相关技术中,词法分析的流程是按照任务划分的串行模式,即,分阶段处理分词、词性标注、专名识别,粒度问题在分词中解决,词性问题在词性标注中解决,专名问题(包括粒度和专名类别)在专名识别中解决。这种方式下,由于分词、词性标注、专名识别是分阶段处理的,是松耦合状态,领域适配较为困难,且制约条件缺失,错误易累加,导致标注效果的精确度不高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种搜索文本的标注方法,能够有效提高搜索文本标注的精确度。本专利技术的另一个目的在于提出一种搜索文本的标注装置。为达到上述目的,本专利技术第一方面实施例提出的搜索文本的标注方法,包括:获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结果;根据所述目标标注结果对所述搜索文本进行标注,其中,所述标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息;其中,所述标注信息为:词性、类别、专名,以及超链接信息中的一种或多种。本专利技术第一方面实施例提出的搜索文本的标注方法,通过根据预设规则、每个候选分词的关联信息、初始标注结果,以及中间标注结果生成目标标注结果,根据目标标注结果对搜索文本进行标注,其中,标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息,其中,标注信息为:词性、类别、专名,以及超链接信息中的一种或多种,能够有效提高搜索文本标注的精确度。为达到上述目的,本专利技术第二方面实施例提出的搜索文本的标注装置,包括:第一获取模块,用于获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;第一读取模块,用于从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;第一标注模块,用于根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;第二获取模块,用于获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;生成模块,用于根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结果;第二标注模块,用于根据所述目标标注结果对所述搜索文本进行标注,其中,所述标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息;其中,所述标注信息为:词性、类别、专名,以及超链接信息中的一种或多种。本专利技术第二方面实施例提出的搜索文本的标注装置,通过根据预设规则、每个候选分词的关联信息、初始标注结果,以及中间标注结果生成目标标注结果,根据目标标注结果对搜索文本进行标注,其中,标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息,其中,标注信息为:词性、类别、专名,以及超链接信息中的一种或多种,能够有效提高搜索文本标注的精确度。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一实施例提出的搜索文本的标注方法的流程示意图;图2是本专利技术实施例中在线动态标注策略框架示意图;图3是本专利技术另一实施例提出的搜索文本的标注方法的流程示意图;图4是本专利技术另一实施例提出的搜索文本的标注方法的流程示意图;图5是本专利技术另一实施例提出的搜索文本的标注方法的流程示意图;图6是本专利技术另一实施例提出的搜索文本的标注方法的流程示意图;图7是本专利技术一实施例提出的搜索文本的标注装置的结构示意图;图8是本专利技术另一实施例提出的搜索文本的标注装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的搜索文本的标注方法的流程示意图。以该搜索文本的标注方法被配置为搜索文本的标注装置中来举例说明。该搜索文本的标注方法可以例如应用在搜索引擎中,对此不作限制。参见图1,该搜索文本的标注方法包括:S11:获取搜索文本的候选分词集,其中,候选分词集中包括:至少一个的候选分词。在本专利技术的实施例中,候选分词集中包含了对搜索文本进行标注时,一段搜索文本可能的分词结果,可以理解的是,搜索文本的可能的分词结果,不一定是搜索文本的最优的分词结果,因此,在本专利技术的实施例中,可以结合图2中的在线动态标注策略框架对搜索文本的语义进行识别,对此不作限制。参见图2,图2中包括字典匹配21、规则匹配22、序列标注23、浅层词法结果打平24,其他垂类标注器25、作品标注器26、通用类别标注器27,以及实体链接器28、篇章级实体打平29,以及词典流更新和管理210,其中,字典匹配21、规则匹配22、序列标注23、浅层词法结果打平24共同构成分词标注器211,分词标注器211用于对搜索文本的分词的粒度进行控制,即对搜索文本的候选分词进行词性和专名进行标注,其他垂类标注器25、作品标注器26、通用类别标注器27,以及实体链接器28用于对搜索文本的候选分词中的实体分词进行概念名称标注,篇章级实体打平29用于消解搜索文本实体分词中的不一致结果和指代型结果,实体链接器28用于标记搜索文本的候选分词的敏感特征,而词典流更新和管理210用于生成在线动态标注词典,以生成动态的标注策略,用于简化领域切换时所消耗的重新开发挖掘策略的人力资源。例如,当搜索文本为:香辣大闸蟹备菜是过水还是过油?,则该搜索文本可能的候选分集词可以例如为:香辣大闸蟹备菜是过水还是过油?,对此不作限制。S12:从语义资源库中读取与候选分词集中每个候选分词所匹配的词汇的预设信息。在本专利技术的实施例中,预设信息包括:与匹配的词汇所关联的置信度、匹配的词汇的内部特征和外部特征,其中,内部特征用于表征词汇在构词方式上的共性特征,外部特征用于表征词汇的上下文匹配特征。在本专利技术的实施例中,语义资源库可以为预先建立的。可选地,可以根据参见图2中的在线动态标注策略框架对搜索文本的候选分词集中的候选分词进行标注。例如,搜索引擎的后台服务器可以基于语义资源库中的词汇集判断候选分词集中每个候选分词是否在本文档来自技高网...

【技术保护点】
一种搜索文本的标注方法,其特征在于,包括以下步骤:获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结果;根据所述目标标注结果对所述搜索文本进行标注,其中,所述标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息;其中,所述标注信息为:词性、类别、专名,以及超链接信息中的一种或多种。

【技术特征摘要】
1.一种搜索文本的标注方法,其特征在于,包括以下步骤:获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结果;根据所述目标标注结果对所述搜索文本进行标注,其中,所述标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息;其中,所述标注信息为:词性、类别、专名,以及超链接信息中的一种或多种。2.如权利要求1所述的搜索文本的标注方法,其特征在于,所述预设信息包括:与所述匹配的词汇所关联的置信度、所述匹配的词汇的内部特征和外部特征,其中,所述内部特征用于表征所述词汇在构词方式上的共性特征,所述外部特征用于表征所述词汇的上下文匹配特征。3.如权利要求2所述的搜索文本的标注方法,其特征在于,所述预设特征包括以下至少之一:所述实体分词和/或专名分词的先验类别分布特征;所述实体分词和/或专名分词外部特征,与所述语义资源库中所述匹配的词汇外部特征的相似程度特征;所述搜索引擎的搜索日志中所述实体分词和/或专名分词的类别特征;以及所述实体分词和/或专名分词的超链接信息。4.如权利要求2所述的搜索文本的标注方法,其特征在于,在所述根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果之前,还包括:从所述语义资源库中读取所述候选分词集中每个候选分词的关联信息。5.如权利要求4所述的搜索文本的标注方法,其特征在于,所述关联信息包括:每个候选分词的类别、类别优先级,以及置信度。6.如权利要求4所述的搜索文本的标注方法,其特征在于,所述根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果,包括:从所述候选分词集中,选取所述所关联的置信度大于第一预设阈值的所述匹配的词汇对应的候选分词,并将所选取的候选分词和对应的标注信息作为第一标注结果;从所述候选分词集中选取与所述匹配的词汇的内部特征和外部特征相同的候选分词,并将所选取的候选分词和对应的标注信息作为第二标注结果;根据所述预设规则、所述关联信息、所述第一标注结果和所述第二标注结果对所述搜索文本的进行标注,得到初始标注结果。7.如权利要求6所述的搜索文本的标注方法,其特征在于,所述预设规则为:若不同的标注结果中的候选分词产生边界冲突,则丢弃产生所述边界冲突的候选分词,获取至少一个的未丢弃的候选分词;选取所述未丢弃的候选分词中,置信度大于第二预设阈值的候选分词;在选取后候选分词中包含所述置信度相同的候选分词时,筛选出所述置信度相同的候选分词中最大长度的候选分词;在筛选后候选分词中包含所述长度和所述置信度均相同的候选分词时,根据所述筛选后候选分词中每个候选分词的类别优先级获取至少一个的目标候选分词;根据所述至少一个的目标候选分词和每个目标候选分词的标注信息对所述搜索文本进行标注。8.如权利要求1或3或4所述的搜索文本的标注方法,其特征在于,通过以下步骤建立所述语义资源库:从网络侧挖掘预设类型的分词资源,并获取至少一个所述分词资源的信息;根据所述分词资源和所述分词资源的信息建立所述语义资源库;其中,所述分词资源的信息包括以下至少之一:所述分词资源的先验类别分布特征;所述分词资源的内部特征和外部特征;所述分词资源所关联的置信度;以及所述分词资源的超链接信息。9.如权利要求1所述的搜索文本的标注方法,其特征在于,还包括:根据所述目标标注结果对所述语义资源库进行更新。10.一种搜索文本的标注装置,其特征在...

【专利技术属性】
技术研发人员:孙珂孙叔琦
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1