The invention provides a method and apparatus for tagging text search, the search text annotation method includes obtaining a set of candidate text search; read, each candidate word segmentation candidate words from semantic presupposition in information resource library; according to the preset information of the candidate word segmentation candidate set are marked, initial the annotation results; entity segmentation to obtain initial annotation results in proper names and / or word, and according to the preset characteristics of each entity and / or word segmentation names marked by intermediate results; according to the preset rules, each candidate word related information, the initial results, and the intermediate results generated annotation annotation results according to the target; the goal of the annotation of text search results, which include the annotation results: at least one of the candidate target segmentation Tagging information for each candidate word segmentation. The invention can effectively improve the precision of search text annotation.
【技术实现步骤摘要】
本专利技术涉及通信
,尤其涉及一种搜索文本的标注方法和装置。
技术介绍
在移动搜索时代,随着移动终端操作界面的缩小和用户传统输入的困难增加,依赖键盘输入且一屏返回十条搜索结果的搜索引擎产品模式已不能满足用户的需求。基于语音、图像的输入模式以及更加精确化、聚合化、推荐化的搜索返回结果,将成为新一代移动搜索产品的“标配”。相关技术中,词法分析的流程是按照任务划分的串行模式,即,分阶段处理分词、词性标注、专名识别,粒度问题在分词中解决,词性问题在词性标注中解决,专名问题(包括粒度和专名类别)在专名识别中解决。这种方式下,由于分词、词性标注、专名识别是分阶段处理的,是松耦合状态,领域适配较为困难,且制约条件缺失,错误易累加,导致标注效果的精确度不高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种搜索文本的标注方法,能够有效提高搜索文本标注的精确度。本专利技术的另一个目的在于提出一种搜索文本的标注装置。为达到上述目的,本专利技术第一方面实施例提出的搜索文本的标注方法,包括:获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结 ...
【技术保护点】
一种搜索文本的标注方法,其特征在于,包括以下步骤:获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结果;根据所述目标标注结果对所述搜索文本进行标注,其中,所述标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息;其中,所述标注信息为:词性、类别、专名,以及超链接信息中的一种或多种。
【技术特征摘要】
1.一种搜索文本的标注方法,其特征在于,包括以下步骤:获取所述搜索文本的候选分词集,其中,所述候选分词集中包括:至少一个的候选分词;从语义资源库中读取与所述候选分词集中每个候选分词所匹配的词汇的预设信息;根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果;获取所述初始标注结果中的实体分词和/或专名分词,并根据预设特征对每个实体分词和/或专名分词进行标注,得到中间标注结果;根据预设规则、每个候选分词的关联信息、所述初始标注结果,以及所述中间标注结果生成目标标注结果;根据所述目标标注结果对所述搜索文本进行标注,其中,所述标注结果中包括:至少一个的目标候选分词和每个目标候选分词的标注信息;其中,所述标注信息为:词性、类别、专名,以及超链接信息中的一种或多种。2.如权利要求1所述的搜索文本的标注方法,其特征在于,所述预设信息包括:与所述匹配的词汇所关联的置信度、所述匹配的词汇的内部特征和外部特征,其中,所述内部特征用于表征所述词汇在构词方式上的共性特征,所述外部特征用于表征所述词汇的上下文匹配特征。3.如权利要求2所述的搜索文本的标注方法,其特征在于,所述预设特征包括以下至少之一:所述实体分词和/或专名分词的先验类别分布特征;所述实体分词和/或专名分词外部特征,与所述语义资源库中所述匹配的词汇外部特征的相似程度特征;所述搜索引擎的搜索日志中所述实体分词和/或专名分词的类别特征;以及所述实体分词和/或专名分词的超链接信息。4.如权利要求2所述的搜索文本的标注方法,其特征在于,在所述根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果之前,还包括:从所述语义资源库中读取所述候选分词集中每个候选分词的关联信息。5.如权利要求4所述的搜索文本的标注方法,其特征在于,所述关联信息包括:每个候选分词的类别、类别优先级,以及置信度。6.如权利要求4所述的搜索文本的标注方法,其特征在于,所述根据所述预设信息对所述候选分词集中的候选分词进行标注,得到初始标注结果,包括:从所述候选分词集中,选取所述所关联的置信度大于第一预设阈值的所述匹配的词汇对应的候选分词,并将所选取的候选分词和对应的标注信息作为第一标注结果;从所述候选分词集中选取与所述匹配的词汇的内部特征和外部特征相同的候选分词,并将所选取的候选分词和对应的标注信息作为第二标注结果;根据所述预设规则、所述关联信息、所述第一标注结果和所述第二标注结果对所述搜索文本的进行标注,得到初始标注结果。7.如权利要求6所述的搜索文本的标注方法,其特征在于,所述预设规则为:若不同的标注结果中的候选分词产生边界冲突,则丢弃产生所述边界冲突的候选分词,获取至少一个的未丢弃的候选分词;选取所述未丢弃的候选分词中,置信度大于第二预设阈值的候选分词;在选取后候选分词中包含所述置信度相同的候选分词时,筛选出所述置信度相同的候选分词中最大长度的候选分词;在筛选后候选分词中包含所述长度和所述置信度均相同的候选分词时,根据所述筛选后候选分词中每个候选分词的类别优先级获取至少一个的目标候选分词;根据所述至少一个的目标候选分词和每个目标候选分词的标注信息对所述搜索文本进行标注。8.如权利要求1或3或4所述的搜索文本的标注方法,其特征在于,通过以下步骤建立所述语义资源库:从网络侧挖掘预设类型的分词资源,并获取至少一个所述分词资源的信息;根据所述分词资源和所述分词资源的信息建立所述语义资源库;其中,所述分词资源的信息包括以下至少之一:所述分词资源的先验类别分布特征;所述分词资源的内部特征和外部特征;所述分词资源所关联的置信度;以及所述分词资源的超链接信息。9.如权利要求1所述的搜索文本的标注方法,其特征在于,还包括:根据所述目标标注结果对所述语义资源库进行更新。10.一种搜索文本的标注装置,其特征在...
【专利技术属性】
技术研发人员:孙珂,孙叔琦,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。