一种分词方法及装置、检索方法及装置制造方法及图纸

技术编号：15616641 阅读：102 留言：0更新日期：2017-06-14 03:30

本发明专利技术实施例提供了一种分词方法及装置、检索方法及装置，用于提高文本分词的准确性，提高搜索命中概率。其中，所述分词方法包括：将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

全部详细技术资料下载

【技术实现步骤摘要】
一种分词方法及装置、检索方法及装置
本专利技术涉及液晶显示
，尤其涉及一种分词方法及装置、检索方法及装置。
技术介绍
随着互联网技术的飞速发展，网络中多媒体资源的数目与日俱增，越来越多的网站开始向互联网用户提供各种多媒体资源。目前，用户使用搜索引擎检索自身需要的多媒体资源时，通常使用索引字段(即检索关键字)来精准地提取出相应的多媒体信息；而现有的搜索引擎在根据索引字段检索多媒体资源时，先使用工具网页对互联网的网页进行抓取，再将网页特征信息(如，网页内容描述信息、网页标题等等)与索引字段进行关键词匹配，接着，将匹配后的各网页进行索引对应并排序，最后，将检索结果呈现给用户。目前主要的分词方法包括，二分法分词，基于字典的正向最大、逆向最大、最少切分、双向最大等，还包括各种基于自然统计的分词方法，如HMM分词，构词法分词等等。这些分词算法，在字典足够全面、概率字典训练足够成熟的条件下，基于对语句进行正确分词的要求下，其工作的很好。在地址资源检索中，通过分词系统，对地址资源名称和地址进行分词，是必不可少的步骤。但是由于地址资源大多数属于未登录词、基于普通的文章训练的字典概率不符合地址资源特征、地址资源常常有歧义等因素，在作为倒序索引构建时使用的分词算法，这些算法存在切分不能满足检索要求的弊端；且考虑资源大小的限制以及快速响应的要求，不可能无限扩充合成系统的通用词典中的词条量。
技术实现思路
本专利技术实施例提供了一种分词方法及装置、检索方法及装置，用于提高文本分词的准确性，提高搜索命中概率。本专利技术实施例提供了一种分词方法，所述方法包括：将待分词文本进行分词，并...

【技术保护点】
一种分词方法，其特征在于，所述分词方法包括：将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。

【技术特征摘要】
1.一种分词方法，其特征在于，所述分词方法包括：将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个与所述关键字相关的分词。2.如权利要求1所述的分词方法，其特征在于，在将待分词文本进行分词之前，所述分词方法还包括：收集基本单词和常用词，构建文本词典；对所述文本词典进行算法构建，形成带预测特征的预测词典；其中，所述预测词典中包括词、词前缀以及词|词前缀。3.如权利要求1所述的分词方法，其特征在于，所述方分词法还包括：将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引。4.一种检索方法，其特征在于，所述检索方法包括：将待分词文本进行分词，并和预测词典中的词进行匹配，得到第一次分词结果和未登录字；以所述未登录字为基础，向前或向后截取一段文本作为与所述未登录字对应的未登录词；判断所述未登录词是否已存在于所述第一次分词结果中，当所述第一次分词结果中没有所述未登录词时，将所述未登录词添加到第一次分词结果中，得到作为最终分词结果的第二次分词结果，以使得根据所述第二次分词结果和用户输入的关键字找到多个用于搜索的分词；将所述作为最终分词结果的第二次分词结果中的分词放入到分词列表中，并根据所述分词列表中的分词构建倒序索引；根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果。5.如权利要求4所述的检索方法，其特征在于，所述根据用于检索的关键词查询出与所述关键词对应的倒序索引，并取得对应的检索结果，包括：根据所述关键词和倒序索引，得到多个与该关键词对应的分词结果匹配的作为检索结果的倒序索引；对命中所述分词结果的所有倒序索引进行相关度计算，根据计算得到相关度的高低顺序，来选出作为检索结果的倒序索引，并根据所述作为检索结果的倒序索引取得对应的检索结果。6.一种分词装置，其特...

【专利技术属性】
技术研发人员：郑佳栋，王生，李欣，周大良，王伟，
申请(专利权)人：方正国际软件北京有限公司，方正国际软件有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人