一种基于文本自身产生词库的分词方法及系统技术方案

技术编号：19778368 阅读：21 留言：0更新日期：2018-12-15 11:20

本发明专利技术涉及一种基于文本自身产生词库的分词方法及系统，属于文本分析技术领域。本发明专利技术针对在没有明确的已知的字典前提下，通过待处理文本本身的文字关联程度，提取出词典，并依次筛选出待处理文本中可能的词语信息。同时，本发明专利技术提高了对未知文本信息的分词速度，满足了对实际未知文本无已知字典情况下的分词应用的实际需要。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于文本自身产生词库的分词方法及系统
本专利技术涉及一种基于文本自身产生词库的分词方法及系统，属于文本分析

技术介绍
世界上大部分的语言，都是由单个字符所组成的，多个字符相互连接使用就成为词组。现有的分词方式为，在已知词组含义的时候，通过词典比对的方式，可以准确的找出一个文本中的词语组合来。但是，查询速度慢，对已知文本词组的对比要求高，当面对的是完全陌生的一种语言，没有任何准确性词典比对的情况下，现有分词方式将无法胜任。
技术实现思路
本专利技术要解决的技术问题是提供一种基于文本自身产生词库的分词方法及系统，根据文本自身产生词典，用概率的方式，将文本中出现较多的组合划分出来，从而起到分词的功能，极大的提高了分词的效率。本专利技术的技术方案是：一种基于文本自身产生词库的分词方法，接收传入系统中的待处理文本信息，并储存在数据流中以待使用；使用编写的文本处理程序对文本进行处理，根据文本自身创建出两字词库，词库包含所有文本中前后两个字在整个文本中出现的次数即词频，词频与词库中的两字词相互关联对应；将建立的两字词词库于词频形成的词典进行储存，形成词典A；再一次读取待处理文本信息，计算词频；与预先给定词频关联阈值进行比对，判断前后字段是否达到相关阈值；将达到阈值的前后词进行联合，形成下一较长词语。依次提取出最长长度的并基于自身文本中的词频关系，筛选出可能的词语，将第一次分出的词语放入词库，可进一步通过比对，产生新的小关联性的词组。第一步、接收待处理文本信息：通过数据流的方式，将文本信息读入系统之中，按行读取放入String类型字符串中，并最终转换为字符数组C...

【技术保护点】
1.一种基于文本自身产生词库的分词方法，其特征在于：第一步：接收待处理的文本信息；第二步：将读取到的文本文件进行处理，转化为单一的字符信息，并给每一个字符建立一张表，用于存放相关联的字符和整个文本中的出现次数与条件概率值；第三步：根据编写的文本自建词库的程序，对接收到的文本信息进行处理，产生一个两字词的词库，并统计相对应的词在全文中出现的词频；第四步：再次读取待处理文本信息，设置词频关联阈值，与之前建立的词库进行对比，结合阈值Q1，判断前后字词之间的相互关联程度，并加以处理成长的词语；第五步、第二次词库比对；第一次比对之后，建立新的多字符词组，再次读取文本，使用新的多字符词组库进行比对，计算出关联概率：

【技术特征摘要】
1.一种基于文本自身产生词库的分词方法，其特征在于：第一步：接收待处理的文本信息；第二步：将读取到的文本文件进行处理，转化为单一的字符信息，并给每一个字符建立一张表，用于存放相关联的字符和整个文本中的出现次数与条件概率值；第三步：根据编写的文本自建词库的程序，对接收到的文本信息进行处理，产生一个两字词的词库，并统计相对应的词在全文中出现的词频；第四步：再次读取待处理文本信息，设置词频关联阈值，与之前建立的词库进行对比，结合阈值Q1，判断前后字词之间的相互关联程度，并加以处理成长的词语；第五步、第二次词库比对；第一次比对之后，建立新的多字符词组，再次读取文本，使用新的多字符词组库进行比对，计算出关联概率：并放入表中...

【专利技术属性】
技术研发人员：邵玉斌，高凌云志，张琪，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人