【技术实现步骤摘要】
一种基于邻近策略的汉语新生关键词自动识别方法
本专利技术属于计算机软件和模式识别领域,具体涉及一种基于邻近策略的汉语新生关键词自动识别方法。
技术介绍
关键词的自动识别在互联网的在线智能搜索、新媒体以及精准营销领域具有非常广泛的应用前景,但目前的关键词识别都是识别词库中已有的关键字,而对于无定义新生词语的关键字识别却需要靠人工处理,这使得海量文本的实时处理效率过于低下。
技术实现思路
为解决上述问题,本专利技术的提供了一种基于邻近策略的汉语新生关键词自动识别方法,能够不依赖人工监督,实时地对汉语语段进行处理,提取出新生关键词,并识别出词性及语义标签。本专利技术解决其问题所采用的技术方案包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库;B.建立关键词的属性向量C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;D.判定生词词性并识别为关键词。本专利技术的有益效果为:本方法能够不依赖人工监督,实时地对汉语语段进行处理,提取出新生关键词,并识别出词性及语义标签,具有识别速度快,效率和准确度高,并具有很好的稳定性。附图说明图1为一种基于邻近策略的汉语新生关键词自动识别方法整体流程图;图2为为生词关键词自动识别效果评价表。具体实施方式如图1所示,本专利技术所述的基于邻近策略的汉语新生关键词自动识别方法包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库将汉语词典中的非兼类词和兼类词包含属性为名词的词语全部提取到基础词典表,再补充网络关键词,构成本方法所述关键词的基础词典表,作为生词关键词的 ...
【技术保护点】
1.一种基于邻近策略的汉语新生关键词自动识别方法,其特征在于,包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库;B.建立关键词的属性向量;C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;D.判定生词词性并识别为关键词。
【技术特征摘要】
1.一种基于邻近策略的汉语新生关键词自动识别方法,其特征在于,包括以下步骤:A.建立关键词的基础词典表和动态汉语语料库;B.建立关键词的属性向量;C.根据上下文语言的分布,通过计算目标关键词与基础词典表中词汇属性向量的复合信息熵,来确定目标关键词与基础词汇的相似程度;D.判定生词词性并识别为关键词。2.如权利要求1所述的基于邻近策略的汉语新生关键词自动识别方法,其特征在于:所述步骤A的具体实现方式为:将汉语词典中的非兼类词和兼类词包含属性为名词的词语全部提取到基础词典表,再补充网络关键词,构成本方法所述关键词的基础词典表,作为生词关键词的比对基础;以包含现代汉语语料库和古代汉语语料库在内的第三代动态流通语料库为基础,构建动态汉语语料库,作为关键词语言环境的判断依据。3.如权利要求2所述的基于邻近策略的汉语新生关键词自动识别方法,其特征在于:所述步骤B“建立关键词的属性向量的具体实现方式为:(1)假设系统扫描到的关键词为Wk,搜索动态语料库中所有可能成为关键词Wk的邻词;(2)将步骤(1)搜索到的邻词按照左邻和右邻归为两类,其中左邻词记为Wli(i>0,且为整数),右邻词记为Wrj(j>0,且为整数),左右邻词的数量选取相同的N个;(3)分别计算Wli和Wrj出现在Wk的左邻及右邻的概率P(Wli)和P(Wrj),则P(Wl)N×1=[P(Wl1)P(Wl2)…P(WlN)]T,P(Wr)N×1=[P(Wr1)P(Wr2)…P(WrN)]T;(4)利用上述计算结果,将产生一个N×2维向量ArrN×2=[P(Wl)N×1P(Wr)N×1],将向量ArrN×2单位化得,即所要求解的关键词Wk的属性向量。4.如权利要求3所述的基于邻近策略的汉语新生关键词自动识别方法,其特征在于:所述步骤C的具体实现方式为...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。