The present invention provides an algorithm to extract semantic understanding Chinese notional words based on the method includes: establishing dictionaries, data retrieval using hash tree structure; according to the punctuation table, will Chinese sentence segmentation for short sentences, while preserving string matching in the process of matching information matching; by matching the message string and word scanning to determine whether the two semantic fields exist, the pre segmentation results to the segmentation process. The invention provides an algorithm to extract the semantic understanding of Chinese words based on word meaning two field processing process improvement, has better time complexity and accuracy of segmentation.
【技术实现步骤摘要】
基于语义理解的中文实词提取算法
本专利技术涉及自然语言处理,特别涉及一种基于语义理解的中文实词提取算法。
技术介绍
随着网络技术及Internet的逐渐成熟,传统的单一关键词方式已不能满足当前海量信息的内容获取需求,如何设计好问答系统成为网络搜索需要解决的一个重要技术。从现有的问答系统来看,中文由于其分词的复杂性和语义识别等方面的限制,成形产品技术相对较落后,例如,由于现有分词方法必须首先设定一个匹配词长的初始值,词长过长则算法的时间复杂度提高;词长过短则切分正确率降低。对于二义字段的处理也不能满足实际用户需要。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种基于语义理解的中文实词提取算法,包括:采用散列树词典建立数据检索结构;根据断句表,将中文句子切分为短句,在进行匹配分词的同时保存匹配过程中字符串的匹配信息;通过字符串的匹配信息以及逐词扫描来判断存在的二义字段,将预切分的中间结果交给细分过程进行处理。优选地,所述细分过程进一步包括:对于预切分结果中包含的二义字段的所有切分路径,根据训练语料库中的词频信息,利用统计模型计算出所有切分路径中词的概率,概率最大的词即是最优词。优选地,所述二义字段通过以下过程进行消除:设置三个参数,词性状态矩阵A、符号概率分布矩阵B、初始状态概率分布π;其中词性状态矩阵A即为词性状态矩阵,把41个词性之间的状态转移矩阵转化为表的形式存储其中;矩阵A的元素aij为:aij=N(Ti,Tj)/N(Ti)其中N(Ti,Tj)是在训练中词性标记Tj紧跟在Ti后出现的次数,N(Ti)是标记Ti出现的次数;其中符号概率分布 ...
【技术保护点】
一种基于语义理解的中文实词提取算法,其特征在于,包括:采用散列树词典建立数据检索结构;根据断句表,将中文句子切分为短句,在进行匹配分词的同时保存匹配过程中字符串的匹配信息;通过字符串的匹配信息以及逐词扫描来判断存在的二义字段,将预切分的中间结果交给细分过程进行处理。
【技术特征摘要】
1.一种基于语义理解的中文实词提取算法,其特征在于,包括:采用散列树词典建立数据检索结构;根据断句表,将中文句子切分为短句,在进行匹配分词的同时保存匹配过程中字符串的匹配信息;通过字符串的匹配信息以及逐词扫描来判断存在的二义字段,将预切分的中间结果交给细分过程进行处理。2.根据权利要求1所述的方法,其特征在于,所述细分过程进一步包括:对于预切分结果中包含的二义字段的所有切分路径,根据训练语料库中的词频信息,利用统计模型计算出所有切分路径中词的概率,概率最大的词即是最优词。3.根据权利要求1所述的方法,其特征在于,所述二义字段通过以下过程进行消除:设置三个参数,词性状态矩阵A、符号概率分布矩阵B、初始状态概率分布π;其中词性状态矩阵A即为词性状态矩阵,把41个词性之间的状态转移矩阵转化为表的形式存储其中;矩阵A的元素aij为:aij=N(Ti,Tj)/N(Ti)其中N(Ti,Tj)是在训练中词性标记Tj紧跟在Ti后出现的次数,N(Ti)是标记Ti出现的次数;其中符号概率分布矩阵B把每个词对应不同的词性概率存储在其中;对词性表中的概率,由以下公式得到词性概率分布bjk:bjk=N(Wk,Tj)/N(Ti)其中N(Wk,Tj)是在训练中词汇...
【专利技术属性】
技术研发人员:张鹏,
申请(专利权)人:成都布林特信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。