一种建立分词索引库的方法和装置制造方法及图纸

技术编号:18289649 阅读:142 留言:0更新日期:2018-06-24 04:25
本发明专利技术公开了一种建立分词索引库的方法和装置,该方法包括:首先,根据待分词文本中的标点符号,获取待分词语句;然后,采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;最后,根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。由此可见,相较于利用IKAnalyzer进行分词,利用反向最大分词匹配算法对待分词语句进行分词处理,拆分出的词语既具有实际含义,且数量较少,即,生成的索引项少而精确,从而在后续全文检索时,对由上述方式建立的索引项少而精确的索引库进行检索,能够大大提升全文检索的速度,极大地提高检索结果准确率。

【技术实现步骤摘要】
一种建立分词索引库的方法和装置
本专利技术涉及全文检索
,尤其涉及一种建立分词索引库的方法和装置。
技术介绍
随着科技的发展,在日常生活中,人们常常通过关键字进行全文检索查找所需的文本内容,而全文检索的准确性取决于检索内容的准确性,全文检索的速度取决于检索内容的大小,即,事先建立的索引库中索引项少而精确,全文检索的速度就越快,检索结果就越准确。目前,大多数的索引库的建立过程如下:在获得文本中的语句内容后,采用IKAnalyzer对语句内容进行分词处理,得到符合字典的词语作为索引项,IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,其采用的是特有的“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。但是,专利技术人经过研究发现,采用IKAnalyzer对语句内容进行分词处理,分出的词语数量较多,生成的索引项较大,而且分出的词语虽然是字典中存在的词语但并没有实际含义,从而在后续全文检索时,需要对索引项较大的索引库进行检索,造成全文检索的速度大大降低,检索结果准确率也大大降低。
技术实现思路
本专利技术所要解决的技术问题是,提供一种建立分词索引库的方法和装置,使得拆分出的词语既具有实际含义且数量较少,即,建立的索引库中的生成的索引项少而精确,从而在后续全文检索时,能够大大提升全文检索的速度,极大地提高检索结果准确率。第一方面,本专利技术实施例提供了一种建立分词索引库的方法,该方法包括:根据待分词文本中的标点符号,获取待分词语句;采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。优选的,所述采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项,包括:从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。优选的,所述根据所述索引项和对应的索引信息,建立分词索引库,具体为:根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。优选的,还包括:获取待检索词语;根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;根据所述目标索引项,获得对应的目标索引信息。优选的,所述根据待分词文本中的标点符号,获取待分词语句,包括:获取待分词文本,所述待分词文本包括待分词语句和标点符号;通过所述标点符号拆分待分词文本,获得待分词语句。第二方面,本专利技术实施例提供了一种建立分词索引库的装置,其特征在于,包括:待分词语句获取单元,用于根据待分词文本中的标点符号,获取待分词语句;索引项获得单元,用于采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;分词索引库建立单元,用于根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。优选的,所述索引项获得单元包括:字符获取子单元,用于从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;拆分返回子单元,用于若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;返回子单元,用于若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。优选的,所述分词索引库建立单元具体用于:根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。优选的,还包括:待检索词语获取单元,用于获取待检索词语;目标索引项获得单元,用于根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;目标索引信息获得单元,用于根据所述目标索引项,获得对应的目标索引信息。优选的,所述待分词语句获取单元包括:待分词文本获取子单元,用于获取待分词文本,所述待分词文本包括待分词语句和标点符号;待分词语句获取子单元,用于获取通过所述标点符号拆分待分词文本,获得待分词语句与现有技术相比,本专利技术至少具有以下优点:采用本专利技术实施例的技术方案,首先,根据待分词文本中的标点符号,获取待分词语句;然后,采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;最后,根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。由此可见,相较于利用IKAnalyzer进行分词,利用反向最大分词匹配算法对待分词语句进行分词处理,拆分出的词语既具有实际含义,且数量较少,即,生成的索引项少而精确,从而在后续全文检索时,对由上述方式建立的索引项少而精确的索引库进行检索,能够大大提升全文检索的速度,极大地提高检索结果准确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术实施例中一种应用场景所涉及的系统框架示意图;图2为本专利技术实施例提供的一种建立分词索引库的方法的流程示意图;图3为本专利技术实施例提供的一种建立分词索引库的装置的结构示意图。具体实施方式为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。目前,全文检索是指根据待检索的词语检索事先建立好的索引库,而现有技术中,大多数的索引库的是获得文本中的语句内容后,采用IKAnalyzer对语句内容进行分词处理,根据得到符合字典的词语作为索引项建立的。其中,IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,其采用的是“正向迭代最细粒度切分算法“,具有60万字/秒的高速处理能力。例如,“今天来了许多新同事”,采用IKAnalyzer进行分词处理,具体地,依次判断字典中是否存在“今”、“今天”、“今天来”、“今天来了”、“今天来了许”、“今天来了许多”、“今天来了许多新”、“今天来了许多新同”、“今天来了许多新同事”、“天”、“天来”、“天来了”、“天来了许”、“天来了许多”……“新”、“新同”、“新同事”、“同”、“同事”、“事”,若存在,将其作为索引项,最终分出来作为索引项的词语是:“今”、“今天”、“天”、“来”、“来了”、“了”、“许”、“许多”、“多”、“新”、“同”、“同事”、“事”。但是,专利技术人经过研究发现,采用IKAnalyzer对语句内容进行分词处理,分出的词语数量较多,本文档来自技高网
...
一种建立分词索引库的方法和装置

【技术保护点】
1.一种建立分词索引库的方法,其特征在于,包括:根据待分词文本中的标点符号,获取待分词语句;采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。

【技术特征摘要】
1.一种建立分词索引库的方法,其特征在于,包括:根据待分词文本中的标点符号,获取待分词语句;采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项;根据所述索引项和对应的索引信息,建立分词索引库,所述索引信息为索引项所属待分词文本的信息。2.根据权利要求1所述的方法,其特征在于,所述采用反向最大分词匹配算法拆分所述待分词语句,获得拆分后的词语作为索引项,包括:从所述待分词语句获取n-m后的m个字符,所述待分词语句有n个字符,所述m为最大分词字符;若所述n-m后的m个字符是字典中的词语,则将所述n-m后的m个字符作为索引项,将n-m赋值给n,返回执行从所述待分词语句获取n-m后的m个字符,直至n=0;若所述n-m后的m个字符不是字典中的词语,则将m-1赋值给m,返回执行从所述待分词语句获取n-m后的m个字符。3.根据权利要求1所述的方法,其特征在于,所述根据所述索引项和对应的索引信息,建立分词索引库,具体为:根据所述索引项和对应的索引信息,采用倒排索引的格式建立分词索引库。4.根据权利要求1所述的方法,其特征在于,还包括:获取待检索词语;根据所述待检索词语检索所述分词索引库,获得目标索引项,所述目标索引项与所述待检索词语相匹配;根据所述目标索引项,获得对应的目标索引信息。5.根据权利要求1所述的方法,其特征在于,所述根据待分词文本中的标点符号,获取待分词语句,包括:获取待分词文本,所述待分词文本包括待分词语句和标点符号;通过所述标点符号拆分待分词文本,获得待分词语句。6.一种建立分词索引库的装置,其特征在于,包括:待分词语句获取单元,用于...

【专利技术属性】
技术研发人员:刘明姚杰
申请(专利权)人:中控技术西安有限公司
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1