【技术实现步骤摘要】
一种基于最大似然概率的科技词汇分词方法及系统
[0001]本专利技术涉及分词算法的
,尤其涉及一种基于最大似然概率的科技词汇分词方法及系统。
技术介绍
[0002]分词是将这段话切分成独立的词语或单词的过程。在自然语言处理中,分词是一项重要的预处理步骤,对于后续的文本处理和分析任务具有重要意义。分词的含义在不同的语境中可能有所不同,具体取决于分词的目的和应用场景。以下是一些常见的分词含义:
[0003]语言理解和语义分析:通过将一段话分解成词语,可以更好地理解句子的结构和语义。这有助于进行词性标注、句法分析、语义角色标注等自然语言处理任务,以提取更多的语义信息和上下文关系。
[0004]信息检索和搜索:在信息检索和搜索引擎中,对查询语句进行分词可以将查询拆分成独立的关键词,以便更准确地匹配和检索相关文档或网页。这有助于提高搜索结果的相关性和准确性。
[0005]机器翻译:分词对于机器翻译任务至关重要。将源语言句子分解成词语可以更好地对应到目标语言的单词或短语,从而帮助机器翻译系统进行准确的翻译。
[0006]文本挖掘和信息抽取:分词可以为文本挖掘和信息抽取任务提供基础。通过将文本切分成词语,可以更好地识别关键词、实体名词、短语等信息,从而帮助挖掘和抽取特定的信息。
[0007]文本分类和情感分析:在文本分类和情感分析中,分词可以将文本转化为离散的特征表示,以便进行分类、情感判断等任务。将文本切分成词语可以提供更丰富的特征信息,帮助提高分类和情感分析的准确性。
[0
【技术保护点】
【技术特征摘要】
1.一种基于最大似然概率的科技词汇分词方法,其特征在于,包括以下步骤:S1:获取与待分词的科技词汇输入字符串相同领域的离线词典,所述离线词典包括词和词频在内的两列;S2:基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的前缀词典;S3:在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建有向无环图;S4:基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的分词结果。2.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S1之前,还包括建立所述离线词典,具体为:S11:获取一个大规模的文本语料库,在所述文本语料库中包括不同领域的文本数据;S12:对所述文本语料库进行包括去除标点符号、特殊字符和数字在内的文本预处理;S13:对进行所述文本预处理后的所述文本语料库进行分词处理,获取分词结果;S14:遍历所述分词结果中的每个词,统计每个词的出现的词频;S15:将所述分词结果中的每个词和对应的所述词频一一对应的方式进行存储。3.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S2中,基于所述离线词典在内存中构建所述待分词的科技词汇输入字符串的所述前缀词典,具体为:S21:依次获取所述待分词的科技词汇输入字符串的每一个词;S22:基于每一个词,获取词的所有前缀;S23:遍历每一个词的所有的所述前缀在所述离线词典中的所述词频,当所述前缀在所述离线词典中时,所述词频取所述离线词典中的所述词频,当所述前缀不在所述离线词典中时,所述词频取0。4.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S3中,在所述前缀词典的基础上,对所述待分词的科技词汇输入字符串进行切分,构建所述有向无环图,具体为:对于所述待分词的科技词汇输入字符串中没有前缀的独立词,只有一种切分方式,他们独立成词,对于所述待分词的科技词汇输入字符串中有前缀的词,列出所有的切分方式;所述有向无环图中内部结构为:0:[q1,q2...q
n
];1:[q1,q2...q
n
];...m
‑
1:[q1,q2...q
n
];其中,0到m
‑
1表示所述待分词的科技词汇输入字符串中单个字在所述待分词的科技词汇输入字符串的句子中的位置,从0开始,每次递增1,直至句子中最后一个位置m
‑
1,m为字数;q1到q
n
为以当前字开头的词的分词结果的跨度,n为以当前字开头的词的分词数量。5.根据权利要求1所述的基于最大似然概率的科技词汇分词方法,其特征在于,在步骤S4中,基于所述有向无环图获取所述待分词的科技词汇输入字符串的所有的分词路径,计
算所述分词路径中似然概率最大的所述分词路径作为所述待分词的科技词汇输入字符串的所述分词结果,具体为:采用动态路径优化算法对所述有向无环图进行包括逆向寻优...
【专利技术属性】
技术研发人员:何军,赵燕,胡俊松,徐旻昕,
申请(专利权)人:上海市研发公共服务平台管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。