一种基于文本自身产生词库的分词方法及系统技术方案

技术编号:19778368 阅读:21 留言:0更新日期:2018-12-15 11:20
本发明专利技术涉及一种基于文本自身产生词库的分词方法及系统,属于文本分析技术领域。本发明专利技术针对在没有明确的已知的字典前提下,通过待处理文本本身的文字关联程度,提取出词典,并依次筛选出待处理文本中可能的词语信息。同时,本发明专利技术提高了对未知文本信息的分词速度,满足了对实际未知文本无已知字典情况下的分词应用的实际需要。

【技术实现步骤摘要】
一种基于文本自身产生词库的分词方法及系统
本专利技术涉及一种基于文本自身产生词库的分词方法及系统,属于文本分析

技术介绍
世界上大部分的语言,都是由单个字符所组成的,多个字符相互连接使用就成为词组。现有的分词方式为,在已知词组含义的时候,通过词典比对的方式,可以准确的找出一个文本中的词语组合来。但是,查询速度慢,对已知文本词组的对比要求高,当面对的是完全陌生的一种语言,没有任何准确性词典比对的情况下,现有分词方式将无法胜任。
技术实现思路
本专利技术要解决的技术问题是提供一种基于文本自身产生词库的分词方法及系统,根据文本自身产生词典,用概率的方式,将文本中出现较多的组合划分出来,从而起到分词的功能,极大的提高了分词的效率。本专利技术的技术方案是:一种基于文本自身产生词库的分词方法,接收传入系统中的待处理文本信息,并储存在数据流中以待使用;使用编写的文本处理程序对文本进行处理,根据文本自身创建出两字词库,词库包含所有文本中前后两个字在整个文本中出现的次数即词频,词频与词库中的两字词相互关联对应;将建立的两字词词库于词频形成的词典进行储存,形成词典A;再一次读取待处理文本信息,计算词频;与预先给定词频关联阈值进行比对,判断前后字段是否达到相关阈值;将达到阈值的前后词进行联合,形成下一较长词语。依次提取出最长长度的并基于自身文本中的词频关系,筛选出可能的词语,将第一次分出的词语放入词库,可进一步通过比对,产生新的小关联性的词组。第一步、接收待处理文本信息:通过数据流的方式,将文本信息读入系统之中,按行读取放入String类型字符串中,并最终转换为字符数组Character。第二步、将字符数组处理为单一的字符,并依次写入CharC中。第三步、关联性建表,创建一个二维表格,将每一个字符之后出现的所有文本中相邻的字符放入表中,并依次对应,计算出其出现的概率:并放入表中;其中P(xi|yi)为条件概率。第四步、依次与词库表比对;再次接受文本信息,并做单一字符处理,与词库表中的两字符词进行比对,当前后两个两字符词的概率都大于预定阈值时,将两字符词进行联合,产生一个新的三字符词,依次进行,直到概率低于阈值Q1,结束联合,从而得到一个全新的多字符词,并写入词库中。第五步、第二次词库比对;第一次比对之后,建立新的多字符词组,再次读取文本,使用新的多字符词组库进行比对,计算出关联概率:并放入表中;通过与新阈值Q2的比较,得到最长长度的在阈值范围内的词。读取待处理文本信息后,将文本信息处理为单一字符的形式,对前后扫描出来的字符进行分别存储,将新扫描到的字符信息放于Charc字符类中,将前一个字符信息放于Charlast字符类中,分别给每一个字符后村放入一张Hashtable表格,用于存放文本中与之相关的文本信息和出现的词频信息。扫描接收到的文本信息,已文本本身所具有的字词关联特性,建立一张二维的关联性表格,文本中每个字符都会有一个相关联的字符,并从全部文本中获取其出现的频率并进行对应的存储。将整个二维表格返回到词库中进行储存,并用原始文本信息与之进行对比,通过词库中的词频来判断前后词语之间的关联性,并以此来判断是否为结合词语。已未知词语结果的前提下,通过自身文本中的字符关联性,找到最小前后关联字符的频率数,并通过最小的前后字符所组成的两字符词,通过词频的阈值控制,找到尽可能长的词。在没有明确的已知的字典前提下,通过待处理文本本身的文字关联程度,提取出词典,并依次筛选出待处理文本中可能的词语信息。同时,本专利技术提高了对未知文本信息的分词速度,满足了对实际未知文本无已知字典情况下的分词应用的实际需要。一种基于文本自身产生词库的分词系统,包括:文本接收模块,用于接收待处理的文本信息;文本处理模块,用于将接收到的文本,处理为单一的字符元素。建立词库表格模块,用于根据接收到的文本本身,创建出每个字符其后所有出现的字符的概率表格,形成一个概率双字符词典。创建的表格为二维表格;其使用类型为Hashtable嵌套方式:Hashtable{Character,Hashtable[Character,Double]}ht1将单一字符放于大表中,其后紧跟字符与出现概率放于其属性表中。字符组比对模块,用于将文本信息与建成的双字符词典进行对比,根据前后双字符在全文本中出现的概率,确定最终字符组长度。第二次建表模块,用于将第一次字符组比对后,产生的新的长度的字符组放于表中,并计算出其紧跟的下一新字符组,出现的概率:第二次比对模块,用于比对新长度字符组之间的概率性关联,筛选出最终最长的字符组词组。此时,将是多字符比对,所以,表结构将发生变化,有单一的单字符变为String类型的字符串。创建的表格为二维表格;其使用类型为Hashtable嵌套方式:Hashtable<String,Hashtable<String,Double>>ht2本专利技术的有益效果是:本专利技术是基于文本本身,通过关联性,概率等数据分析得出词库最终进行比对后得到的分词方法与处理程序;在没有明确的已知的字典前提下,通过待处理文本本身的文字关联程度,提取出词典,并依次筛选出待处理文本中可能的词语信息。附图说明图1是本专利技术的步骤流程图;具体实施方式下面结合附图和具体实施方式,对本专利技术作进一步说明。一种基于文本自身产生词库的分词方法:第一步:接收待处理的文本信息;第二步:将读取到的文本文件进行处理,转化为单一的字符信息,并给每一个字符建立一张表,用于存放相关联的字符和整个文本中的出现次数与条件概率值;第三步:根据编写的文本自建词库的程序,对接收到的文本信息进行处理,产生一个两字词的词库,并统计相对应的词在全文中出现的词频;第四步:再次读取待处理文本信息,设置词频关联阈值,与之前建立的词库进行对比,结合阈值Q1,判断前后字词之间的相互关联程度,并加以处理成长的词语;第五步、第二次词库比对;第一次比对之后,建立新的多字符词组,再次读取文本,使用新的多字符词组库进行比对,计算出关联概率:并放入表中;通过与新阈值Q2的比较,得到最长长度的在阈值范围内的词。一种基于文本自身产生词库的分词系统,包括:文本接收模块,用于接收待处理的文本信息;文本处理模块,用于将接收到的文本,处理为单一的字符元素。建立词库表格模块,用于根据接收到的文本本身,创建出每个字符其后所有出现的字符的概率表格,形成一个概率双字符词典;字符组比对模块,用于将文本信息与建成的双字符词典进行对比,根据前后双字符在全文本中出现的概率,确定最终字符组长度;第二次建表模块,用于将第一次字符组比对后,产生的新的长度的字符组放于表中,并计算出其紧跟的下一新字符组;第二次比对模块,用于比对新长度字符组之间的概率性关联,筛选出最终最长的字符组词组。实施例1:一种基于文本自身产生词库的分词方法:第一步、接收待处理的文本信息;如图1中所示流程图,在第一步中,将待处理的文本扫描入数据流中,等待后续的文本处理程序的使用;第二步、将读取到的文本文件进行处理,如图1中所示流程图,将文本信息逐一扫描,将其转换为单一的字符信息,并通过两个存储空间进行存储,前一存储空间为缓存空间,用于存储当前扫描到的字符的前一字符信本文档来自技高网...

【技术保护点】
1.一种基于文本自身产生词库的分词方法,其特征在于:第一步:接收待处理的文本信息;第二步:将读取到的文本文件进行处理,转化为单一的字符信息,并给每一个字符建立一张表,用于存放相关联的字符和整个文本中的出现次数与条件概率值;第三步:根据编写的文本自建词库的程序,对接收到的文本信息进行处理,产生一个两字词的词库,并统计相对应的词在全文中出现的词频;第四步:再次读取待处理文本信息,设置词频关联阈值,与之前建立的词库进行对比,结合阈值Q1,判断前后字词之间的相互关联程度,并加以处理成长的词语;第五步、第二次词库比对;第一次比对之后,建立新的多字符词组,再次读取文本,使用新的多字符词组库进行比对,计算出关联概率:

【技术特征摘要】
1.一种基于文本自身产生词库的分词方法,其特征在于:第一步:接收待处理的文本信息;第二步:将读取到的文本文件进行处理,转化为单一的字符信息,并给每一个字符建立一张表,用于存放相关联的字符和整个文本中的出现次数与条件概率值;第三步:根据编写的文本自建词库的程序,对接收到的文本信息进行处理,产生一个两字词的词库,并统计相对应的词在全文中出现的词频;第四步:再次读取待处理文本信息,设置词频关联阈值,与之前建立的词库进行对比,结合阈值Q1,判断前后字词之间的相互关联程度,并加以处理成长的词语;第五步、第二次词库比对;第一次比对之后,建立新的多字符词组,再次读取文本,使用新的多字符词组库进行比对,计算出关联概率:并放入表中...

【专利技术属性】
技术研发人员:邵玉斌高凌云志张琪
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1