一种分词方法及装置、检索方法及装置制造方法及图纸

技术编号:15616641 阅读:102 留言:0更新日期:2017-06-14 03:30
本发明专利技术实施例提供了一种分词方法及装置、检索方法及装置,用于提高文本分词的准确性,提高搜索命中概率。其中,所述分词方法包括:将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

【技术实现步骤摘要】
一种分词方法及装置、检索方法及装置
本专利技术涉及液晶显示
,尤其涉及一种分词方法及装置、检索方法及装置。
技术介绍
随着互联网技术的飞速发展,网络中多媒体资源的数目与日俱增,越来越多的网站开始向互联网用户提供各种多媒体资源。目前,用户使用搜索引擎检索自身需要的多媒体资源时,通常使用索引字段(即检索关键字)来精准地提取出相应的多媒体信息;而现有的搜索引擎在根据索引字段检索多媒体资源时,先使用工具网页对互联网的网页进行抓取,再将网页特征信息(如,网页内容描述信息、网页标题等等)与索引字段进行关键词匹配,接着,将匹配后的各网页进行索引对应并排序,最后,将检索结果呈现给用户。目前主要的分词方法包括,二分法分词,基于字典的正向最大、逆向最大、最少切分、双向最大等,还包括各种基于自然统计的分词方法,如HMM分词,构词法分词等等。这些分词算法,在字典足够全面、概率字典训练足够成熟的条件下,基于对语句进行正确分词的要求下,其工作的很好。在地址资源检索中,通过分词系统,对地址资源名称和地址进行分词,是必不可少的步骤。但是由于地址资源大多数属于未登录词、基于普通的文章训练的字典概率不符合地址资源特征、地址资源常常有歧义等因素,在作为倒序索引构建时使用的分词算法,这些算法存在切分不能满足检索要求的弊端;且考虑资源大小的限制以及快速响应的要求,不可能无限扩充合成系统的通用词典中的词条量。
技术实现思路
本专利技术实施例提供了一种分词方法及装置、检索方法及装置,用于提高文本分词的准确性,提高搜索命中概率。本专利技术实施例提供了一种分词方法,所述方法包括:将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。本专利技术实施例提供的分词方法中,首先将待分词文本进行分词,并将得到的分词与预测词典中的词进行匹配,得到第一次分词结果和未登录字;然后以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词,并判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到所述第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。该分词方法中对未登录词进行分词并添加到分词列表中,提高了分词的准确性,使得利用该分词列表构建的索引具有全面性、抗未登录词的特征,减少了对预测词典全面性的要求,且能够提高搜索命中概率。较佳的,在将待分词文本进行分词之前,所述方法还包括:收集基本单词和常用词,构建文本词典;对所述文本词典进行算法构建,形成带预测特征的预测词典;其中,所述预测词典中包括词、词前缀以及词|词前缀。较佳的,所述方法还包括:将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词,构建倒序索引。通过根据所述分词列表中的分词构建倒序索引,可有效的实现对倒序索引进行管理,有利于降低检索过程中所需的缓存,提高系统响应。基于同一专利技术构思,本专利技术实施例还提供了一种检索方法,所述检索方法包括:将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词;将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词构建倒序索引;根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果。所述检索方法中,首先将待分词文本进行分词,得到第一次分词结果和未登录字,然后以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到所述第一次分词结果中,从而得到包括未登录词的第二次分词结果;然后将所述第二次分词结果中的分词放入到分词列表中,再根据所述分词列表构建倒序索引,并根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果。由于该检索方法中通过对未登录词进行分词并添加到分词列表中,提高了分词的准确性,使得利用该分词列表构建的倒序索引具有全面性、抗未登录词的特征,减少了对预测词典全面性的要求,且能够提高搜索命中概率。较佳的,所述根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果,包括:根据所述关键词和倒序索引,得到多个与该关键词对应的分词结果匹配的作为检索结果的倒序索引;对命中所述分词结果的所有倒序索引进行相关度计算,根据计算得到相关度的高低顺序,来选出作为检索结果的倒序索引,并根据所述作为检索结果的倒序索引取得对应的检索结果。基于同一专利技术构思,本专利技术实施例还提供了一种分词装置,所述分词装置包括:划分单元,用于将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;组词单元,用于以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断单元,判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。本专利技术实施例提供的分词装置中,通过划分单元将待分词文本进行分词,并将得到的分词和预测词典中的词进行匹配,得到第一次分词结果和未登录字;然后通过组词单元以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词,最后通过判断单元判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到所述第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词,提高了分词的准确性,使得利用所述第二次分词结果构建的索引具有全面性、抗未登录词的特征,减少了对预测词典全面性的要求,且能够提高搜索命中概率。较佳的,所述分词装置还包括预测词典构建单元,用于收集基本单词和常用词,构建文本词典;并对所述文本词典进行算法构建,形成带预测特征的预测词典;其中,所述预测词典中包括词、词前缀以及词|词前缀。通过所述预测词典构建单元构建带预测特征的预测词典,以减少在所述预测词典中查询该分词位置信息的工作量,进而提高工作效率。较佳的,所述分词装置还包括排序单元,用于将所述作为最终分词结果的第二次分词结果中的本文档来自技高网...
一种分词方法及装置、检索方法及装置

【技术保护点】
一种分词方法,其特征在于,所述分词方法包括:将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

【技术特征摘要】
1.一种分词方法,其特征在于,所述分词方法包括:将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。2.如权利要求1所述的分词方法,其特征在于,在将待分词文本进行分词之前,所述分词方法还包括:收集基本单词和常用词,构建文本词典;对所述文本词典进行算法构建,形成带预测特征的预测词典;其中,所述预测词典中包括词、词前缀以及词|词前缀。3.如权利要求1所述的分词方法,其特征在于,所述方分词法还包括:将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词构建倒序索引。4.一种检索方法,其特征在于,所述检索方法包括:将待分词文本进行分词,并和预测词典中的词进行匹配,得到第一次分词结果和未登录字;以所述未登录字为基础,向前或向后截取一段文本作为与所述未登录字对应的未登录词;判断所述未登录词是否已存在于所述第一次分词结果中,当所述第一次分词结果中没有所述未登录词时,将所述未登录词添加到第一次分词结果中,得到作为最终分词结果的第二次分词结果,以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词;将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中,并根据所述分词列表中的分词构建倒序索引;根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果。5.如权利要求4所述的检索方法,其特征在于,所述根据用于检索的关键词查询出与所述关键词对应的倒序索引,并取得对应的检索结果,包括:根据所述关键词和倒序索引,得到多个与该关键词对应的分词结果匹配的作为检索结果的倒序索引;对命中所述分词结果的所有倒序索引进行相关度计算,根据计算得到相关度的高低顺序,来选出作为检索结果的倒序索引,并根据所述作为检索结果的倒序索引取得对应的检索结果。6.一种分词装置,其特...

【专利技术属性】
技术研发人员:郑佳栋王生李欣周大良王伟
申请(专利权)人:方正国际软件北京有限公司方正国际软件有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1