【技术实现步骤摘要】
本专利技术涉及一种对变形词进行检测证认的系统,同时也涉及该系统实现变形词检测证认的方法,属于计算机自然语言处理
技术介绍
随着互联网的推广普及,现实生活中开始出现越来越多的网络语言。网络语言的一个显著特点在于变形词特别多,例如用“886”表示“再见”,“3Q”表示“谢谢”,“童鞋”表示“同学”等等。另一方面,有些作者为了规避机器自动检测,故意选用错字、别字、同音字等变形词替换原形词。这些变形词的出现给计算机自然语言处理带来了巨大的技术挑战,需要研发出专门的变形词检测技术加以解决。目前,现有的变形词检测技术大多基于变形词库实现,主要在变形词检测的技术实现上有所不同,例如有的变形词检测技术是在分离变形词部分后与原形词进行匹配。在申请号为98105507. 9的中国专利申请中,公开了一种不连续短语的匹配翻译装置和方法。该装置包括一个句子获取装置,从一篇文章或文章片断的指定的位置获取一个句子;变形词辨析装置,根据变形词取得其原形;短语辨析装置,将有关的短语信息位置取出并送到短语索引装置中;短语索引装置,根据短语辨析装置的输入,将涉及有关单词的短语全部取出进行匹 ...
【技术保护点】
一种变形词证认系统,其特征在于:所述变形词证认系统包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中,所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接;所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值 ...
【技术特征摘要】
1.一种变形词证认系统,其特征在于 所述变形词证认系统包括原形词提供模块、变形词生成模块、变形词库、变形词检测模块、证认模块、概念库及变形词判别模块;其中, 所述原形词提供模块与所述变形词生成模块连接,所述变形词生成模块分别连接所述变形词库和所述变形词检测模块,所述证认模块分别与所述变形词检测模块、所述变形词判别模块和所述概念库进行连接; 所述原形词提供模块提供原形词,所述变形词生成模块在所述变形词库中查找所述原形词的变形词,将所述变形词提供给所述变形词检测模块,所述证认模块通过所述概念库的支持,检测待检测数据的语义背景与原形词概念集合的相似程度,所述变形词判别模块通过所述相似度值与预先设定的判别阈值比较,得出所检测的变形词是否为所述原形词的变形词的结论。2.如权利要求1所述的变形词证认系统,其特征在于 所述变形词证认系统中还包括数据提供模块,所述数据提供模块分别与所述变形词检测模块和所述证认模块进行连接。3.如权利要求1所述的变形词证认系统,其特征在于 所述变形词库中以原形词为主键,记录所述原形词的变形词;所述变形词包括但不限于汉语拼音、同音词、拼...
【专利技术属性】
技术研发人员:张作职,宋传宝,王树强,
申请(专利权)人:北京海量融通软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。