【技术实现步骤摘要】
本专利技术属于计算机语言学中的自然语言处理领域,具体涉及一种提取中文人名地 名的方法及装置。
技术介绍
随着时代的变迀,信息呈现出爆炸性的增长,为了从海量的数据中提取中有用的 信息,各领域都在大力研究相关的技术,中文人名及地名的提取就是其中的一部分,也是电 子数据取证分析的一个热点,由于中文本身的复杂性和多义性,中文人名及地名的提取研 究要落后于英文很多。 参考专利文献CN104182423A公开了一种基于条件随机场的中文人名自动识别方 法,通过对中文人名特征的研究,结合统计学的概率模型,构建出中文人名自动识别系统。 参考专利文献CN103870489A公开了一种基于搜索日志的中文人名自扩展识别方法,利用搜 索日志本身特点构建种子人名、生成人名模板,根据人名上下文在对应查询串及整个搜索 日志查询串的变化趋势,过滤人名模板,降低了人名识别时的噪音信息,提高了搜索日志中 人名识别率。 目前中文人名地名提取方式主要包含两种: 1.基于规则的方法,此类方法为找出人名地名的构成规则,依据构成规则与样本 数据进行匹配,优点在于效率高,匹配速度快,但是也存在着很明 ...
【技术保护点】
一种提取中文人名地名的方法,其特征在于:它包括以下步骤,S1,将文本转换为UTF‑8编码格式;S2,预设文本阈值L,判断文本长度T是否大于阈值L,如果T大于L,则采用延伸分段法将文本分段,分段后转到步骤S3,如果T小于等于L,则转到步骤S3;S3,对本文进行预处理去除脏数据;S4,对预处理后文本中的中文单字进行词性标注,并将标注后的单字进行分词组词;S5,将文本中与目标词组匹配的词组标记出来,并统计匹配结果。
【技术特征摘要】
【专利技术属性】
技术研发人员:陈泽青,苏再添,吴少华,
申请(专利权)人:厦门市美亚柏科信息股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。