一种基于最大似然概率的科技词汇分词方法及系统技术方案

技术编号:39174536 阅读:9 留言:0更新日期:2023-10-27 08:22
本发明专利技术涉及分词算法技术领域,提供了一种基于最大似然概率的科技词汇分词方法,包括以下步骤:S1:获取与待分词的科技词汇输入字符串相同领域的离线词典,所述离线词典包括词和词频在内的两列;S2:基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的前缀词典;S3:在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建有向无环图;S4:基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的分词结果。基于最大似然概率,计算出最优的切分路径,获取最优的分词结果。获取最优的分词结果。获取最优的分词结果。

【技术实现步骤摘要】
一种基于最大似然概率的科技词汇分词方法及系统


[0001]本专利技术涉及分词算法的
,尤其涉及一种基于最大似然概率的科技词汇分词方法及系统。

技术介绍

[0002]分词是将这段话切分成独立的词语或单词的过程。在自然语言处理中,分词是一项重要的预处理步骤,对于后续的文本处理和分析任务具有重要意义。分词的含义在不同的语境中可能有所不同,具体取决于分词的目的和应用场景。以下是一些常见的分词含义:
[0003]语言理解和语义分析:通过将一段话分解成词语,可以更好地理解句子的结构和语义。这有助于进行词性标注、句法分析、语义角色标注等自然语言处理任务,以提取更多的语义信息和上下文关系。
[0004]信息检索和搜索:在信息检索和搜索引擎中,对查询语句进行分词可以将查询拆分成独立的关键词,以便更准确地匹配和检索相关文档或网页。这有助于提高搜索结果的相关性和准确性。
[0005]机器翻译:分词对于机器翻译任务至关重要。将源语言句子分解成词语可以更好地对应到目标语言的单词或短语,从而帮助机器翻译系统进行准确的翻译。
[0006]文本挖掘和信息抽取:分词可以为文本挖掘和信息抽取任务提供基础。通过将文本切分成词语,可以更好地识别关键词、实体名词、短语等信息,从而帮助挖掘和抽取特定的信息。
[0007]文本分类和情感分析:在文本分类和情感分析中,分词可以将文本转化为离散的特征表示,以便进行分类、情感判断等任务。将文本切分成词语可以提供更丰富的特征信息,帮助提高分类和情感分析的准确性。
[0008]总之,对一段话进行分词的含义在于将连续的文本切分成离散的词语,从而为后续的自然语言处理任务提供更准确、更丰富的语言表达和特征表示。
[0009]在现有技术中,一般采用预定义的规则来切分句子。例如,可以基于空格、标点符号或特定的分割符进行切分。这种方法简单直接,但是由于每一个词具有多种不同的前缀切分方式,没有办法找到最优的切分方式,分词的结果不是最佳的。

技术实现思路

[0010]针对上述问题,本专利技术的目的在于提供一种基于最大似然概率的科技词汇分词方法及系统,基于最大似然概率,计算出最优的切分路径,获取最优的分词结果。
[0011]本专利技术的上述专利技术目的是通过以下技术方案得以实现的:
[0012]一种基于最大似然概率的科技词汇分词方法,包括以下步骤:
[0013]S1:获取与待分词的科技词汇输入字符串相同领域的离线词典,所述离线词典包括词和词频在内的两列;
[0014]S2:基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的前缀词
典;
[0015]S3:在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建有向无环图;
[0016]S4:基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的分词结果。
[0017]进一步地,在步骤S1之前,还包括建立所述离线词典,具体为:
[0018]S11:获取一个大规模的文本语料库,在所述文本语料库中包括不同领域的文本数据;
[0019]S12:对所述文本语料库进行包括去除标点符号、特殊字符和数字在内的文本预处理;
[0020]S13:对进行所述文本预处理后的所述文本语料库进行分词处理,获取分词结果;
[0021]S14:遍历所述分词结果中的每个词,统计每个词的出现的词频;
[0022]S15:将所述分词结果中的每个词和对应的所述词频一一对应的方式进行存储。
[0023]进一步地,在步骤S2中,基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的所述前缀词典,具体为:
[0024]S21:依次获取所述待分词的科技词汇输入字符串的每一个词;
[0025]S22:基于每一个词,获取词的所有前缀;
[0026]S23:遍历每一个词的所有的所述前缀在所述离线词典中的所述词频,当所述前缀在所述离线词典中时,所述词频取所述离线词典中的所述词频,当所述前缀不在所述离线词典中时,所述词频取0。
[0027]进一步地,在步骤S3中,在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建所述有向无环图,具体为:
[0028]对于所述待分词的科技词汇输入字符串中没有前缀的独立词,只有一种切分方式,他们独立成词,对于所述待分词的科技词汇输入字符串中有前缀的词,列出所有的切分方式;
[0029]所述有向无环图中内部结构为:
[0030]0:[q1,q2...q
n
];
[0031]1:[q1,q2...q
n
];
[0032]...
[0033]m

1:[q1,q2...q
n
];
[0034]其中,0到m

1表示所述待分词的科技词汇输入字符串中单个字在所述待分词的科技词汇输入字符串的句子中的位置,从0开始,每次递增1,直至句子中最后一个位置m

1,m为字数;q1到q
n
为以当前字开头的词的分词结果的跨度,n为以当前字开头的词的分词数量。
[0035]进一步地,在步骤S4中,基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的所述分词结果,具体为:
[0036]采用动态路径优化算法对所述有向无环图进行包括逆向寻优化和正向求解在内的方法进行路径规划;
[0037]采用所述逆向寻优化方法从所述有向无环图的终点出发向起点进行搜索,在搜索的过程中,针对所述有向无环图中当前搜索位置的字,采用所述正向求解方法计算从当前搜索位置的字到终点的所有的所述分词路径的权重,以及根据所述权重获取从当前搜索位置的字到终点的最大似然概率,所述最大似然概率对应的所述分词路径作为从当前搜索位置的字到终点的最终的所述分词路径;
[0038]采用所述逆向寻优化方法以从当前搜索位置的字到终点的最终的所述分词路径为基础继续向起点进行搜索,采用所述正向求解方法计算下一个搜索位置的字到终点的以上一个搜索位置确定好的最终的所述分词路径为基础的所有的所述分词路径的权重,以及根据所述权重获取从下一个搜索位置的字到终点的最大似然概率,所述最大似然概率对应的所述分词路径作为从下一个搜索位置的字到终点的最终的所述分词路径,直至搜索到起点,获取完整的整个所述待分词的科技词汇输入字符串的最终的所述分词路径;
[0039]将获取完整的整个所述待分词的科技词汇输入字符串的最终的所述分词路径作为待分词的科技词汇输入字符串的所述分词结果。
[0040]进一步地,所述分词路径的权重,计算方法为:
[0041][0042]其中,w
i
...

【技术保护点】

【技术特征摘要】
1.一种基于最大似然概率的科技词汇分词方法,其特征在于,包括以下步骤:S1:获取与待分词的科技词汇输入字符串相同领域的离线词典,所述离线词典包括词和词频在内的两列;S2:基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的前缀词典;S3:在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建有向无环图;S4:基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的分词结果。2.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S1之前,还包括建立所述离线词典,具体为:S11:获取一个大规模的文本语料库,在所述文本语料库中包括不同领域的文本数据;S12:对所述文本语料库进行包括去除标点符号、特殊字符和数字在内的文本预处理;S13:对进行所述文本预处理后的所述文本语料库进行分词处理,获取分词结果;S14:遍历所述分词结果中的每个词,统计每个词的出现的词频;S15:将所述分词结果中的每个词和对应的所述词频一一对应的方式进行存储。3.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S2中,基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的所述前缀词典,具体为:S21:依次获取所述待分词的科技词汇输入字符串的每一个词;S22:基于每一个词,获取词的所有前缀;S23:遍历每一个词的所有的所述前缀在所述离线词典中的所述词频,当所述前缀在所述离线词典中时,所述词频取所述离线词典中的所述词频,当所述前缀不在所述离线词典中时,所述词频取0。4.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S3中,在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建所述有向无环图,具体为:对于所述待分词的科技词汇输入字符串中没有前缀的独立词,只有一种切分方式,他们独立成词,对于所述待分词的科技词汇输入字符串中有前缀的词,列出所有的切分方式;所述有向无环图中内部结构为:0:[q1,q2...q
n
];1:[q1,q2...q
n
];...m

1:[q1,q2...q
n
];其中,0到m

1表示所述待分词的科技词汇输入字符串中单个字在所述待分词的科技词汇输入字符串的句子中的位置,从0开始,每次递增1,直至句子中最后一个位置m

1,m为字数;q1到q
n
为以当前字开头的词的分词结果的跨度,n为以当前字开头的词的分词数量。5.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S4中,基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计
算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的所述分词结果,具体为:采用动态路径优化算法对所述有向无环图进行包括逆向寻优...

【专利技术属性】
技术研发人员:何军赵燕胡俊松徐旻昕
申请(专利权)人:上海市研发公共服务平台管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1