针对特定领域的新词发现方法技术

技术编号:13348455 阅读:59 留言:0更新日期:2016-07-15 02:03
本发明专利技术提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理;步骤2,构建候选新词集;其中,每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3,候选新词挖掘;优点为:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。

【技术实现步骤摘要】
针对特定领域的新词发现方法
本专利技术属于新词发现以及文本挖掘
,具体涉及一种针对特定领域的新词发现方法。
技术介绍
随着信息技术和互联网技术的飞速发展,网络上充斥着各种各样的信息,并呈现出指数增长的趋势。在各个专业领域,互联网信息也爆炸式地产生和增长。在上述网络信息增长过程中,新词不断涌现,对于中文新词的发现,尤其是特定领域的中文新词发现,具有重要意义:一方面,新词的大量而快速地涌现,严重影响中文分词结果的质量,致使分词结果中出现较多的不可识别的“单字”,大大降低了分词结果的准确率,最近的研究还显示,60%的分词错误是由新词导致的,因此,有效地识别新词,将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。另一方面,新词发现对于舆情监控、话题检测等挖掘技术的应用也十分关键,可以说,新词发现是这些应用的基础和前提。由此可见,准确高效的发现新词,具有重要意义。现有技术中虽然出现了少量的新词发现算法,但是,现有的新词发现算法,普遍具有算法复杂度高的问题,难以快速准确的识别出新词;还具有新词识别不全面的问题,难以全面识别出被分析文档包含的所有新词。
技术实现思路
针对现有技术存在的缺陷,本专利技术提供一种针对特定领域的新词发现方法,可有效解决上述问题。本专利技术采用的技术方案如下:本专利技术提供一种针对特定领域的新词发现方法,包括以下步骤:步骤1,文档预处理:基于中文词库,采用中文分词算法对所述原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;步骤2,构建候选新词集,包括:步骤2.1,指定所述词语序列中的某个词语作为中心词语,并设定扫描窗口区间;其中,设所述扫描窗口区间为[-a,+b];a和b为正整数或0,并且,a等于或不等于b;步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;步骤2.3,步骤2.2扫描得到的每个词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达,形成候选新词;将所有的候选新词所构成的集合,称为候选新词集;步骤3,候选新词挖掘:对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,判断每个所述候选新词是否满足新词构成要求,如果满足,则该候选新词即作为最终挖掘到的新词,并输出所述挖掘到的新词;否则,丢弃该候选新词。优选的,步骤1中,所述中文分词算法为中国科学院计算技术研究所的ICT-CLAS中文分词算法。优选的,步骤1中,还包括:在采用中文分词算法对所述原始文档集进行中文分词处理,得到词语序列后,去除所述词语序列中包括的停用词,得到处理后的词语序列。优选的,步骤3具体为:设定置信度,并采用关联规则挖掘算法,对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,得到满足置信度的新词。优选的,所述关联规则挖掘算法为Apriori算法。优选的,步骤3之后,还包括:步骤4,对于步骤3挖掘到的新词,将该新词录入步骤1所使用的所述中文词库,进而可优化后续中文分词效果。本专利技术提供的针对特定领域的新词发现方法具有以下优点:针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。附图说明图1为本专利技术提供的针对特定领域的新词发现方法的简要流程图;图2为本专利技术提供的针对特定领域的新词发现方法的详细流程图。具体实施方式以下结合附图对本专利技术进行详细说明:随着中文分词领域地不断发展,出现了两个概念:新词和未登录词。虽然二者有所区分,未登录词是指未收录到词典中的词语,新词则是具有新的形式、含义和用法的词语,新词也是在词典中未出现的词语,也属于未登录词,但新词的含义更广。经统计整理,可将新词分为以下五种类别:(1)缩略词,指用一个较长词汇中的某几个字代替整个词汇的词,分为中文缩略词和英文缩略词。如“中国石油天然气股份有限公司”缩略为“中石油”,“GeneralManager”缩略为“GM”;(2)专有名词,主要包括人名、地名、机构名。如“张三”、“中关村”、“百度”。(3)派生词,主要指含有前缀或后缀词素的词,如“信息化”。(4)复合词,由动词或名词等组合而成,如“计算机网络”。(5)数字类复合词,即组成成分中含有数字,包括时间、日期、电话号码、地址、数字等,如“2015年”、“八千万”。新词作为词组,即为字词的组合搭配,传统的词汇指的是紧密相连的两个或多个字词的排列,即组成词汇的元素之间的距离间隔为0。然而在某些特殊领域,词汇与词汇之间有较为确定的非0的距离关系,如词汇A和词汇B之间间隔3个汉字。而这种词汇A和词汇B的这种固定组合方式,在本专利技术中也视作新词。也就是说,本专利技术所指的新词,是广义上的新词,不止包含新的词语,还包含特定距离间隔的词组搭配,例如,“红色xxx月亮”,其中“xxx”表示三个任意字符。此处的“红色”、“月亮”及其中间间隔的三个任意字符即为一个词组搭配,属于本专利技术创新提出的新词表达方式,而且,本专利技术主要针对该类由词组搭配构成的新词进行发现。因此,在本专利技术广义的新词定义情况下,新词的表达方式除了构成词的元素外,还包括各个元素之间的距离位置信息。对于上述由词组搭配构成的新词,本专利技术提供一种针对特定领域的新词发现方法,采用更灵活的新词表达方式,将数据挖掘领域的关联规则方法引入新词发现过程,并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征,由此可快速准确全面的识别出文档包含的所有新词。本专利技术提供的针对特定领域的新词发现方法,如图1所示,可大致描述为三个步骤:步骤a,文档预处理:将原始文档集作为输入,通过中文分词等方法将其转化为词语序列。步骤b,构建候选新词集:根据步骤1输出的词语序列和指定的中心词,利用本专利技术介绍的新词表述方式,将位于中心词窗口范围内的词汇组合构建成候选新词集。步骤c,新词挖掘:通过将步骤b中构建的候选新词的各项特征作为数据挖掘特征,采用关联规则挖掘算法(如Apriori算法)对频繁项集进行挖掘,得到满足一定置信度的新词。下面结合图2,对本专利技术方法进行详细介绍:步骤1,文档预处理:基于中文词库,采用中文分词算法对所述原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;本步骤中,所处理的原始文档集可以由任意数量的原始文档组成,当然,也可以仅由一个原始文档组成,本专利技术对此并不限制。此处所采用的中文本文档来自技高网...
针对特定领域的新词发现方法

【技术保护点】
一种针对特定领域的新词发现方法,其特征在于,包括以下步骤:步骤1,文档预处理:基于中文词库,采用中文分词算法对所述原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;步骤2,构建候选新词集,包括:步骤2.1,指定所述词语序列中的某个词语作为中心词语,并设定扫描窗口区间;其中,设所述扫描窗口区间为[‑a,+b];a和b为正整数或0,并且,a等于或不等于b;步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;步骤2.3,步骤2.2扫描得到的每个词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达,形成候选新词;将所有的候选新词所构成的集合,称为候选新词集;步骤3,候选新词挖掘:对所述候选新词集中的每个所述候选新词进行进一步的挖掘分析,判断每个所述候选新词是否满足新词构成要求,如果满足,则该候选新词即作为最终挖掘到的新词,并输出所述挖掘到的新词;否则,丢弃该候选新词。...

【技术特征摘要】
2015.03.16 CN 20151011331701.一种针对特定领域的新词发现方法,其特征在于,包括以下步骤:步骤1,文档预处理:基于中文词库,采用中文分词算法对原始文档集进行中文分词处理,将所述原始文档集转化为词语序列;步骤2,构建候选新词集,包括:步骤2.1,指定所述词语序列中的某个词语作为中心词语,并设定扫描窗口区间;其中,设所述扫描窗口区间为[-a,+b];a和b为正整数或0,并且,a等于或不等于b;步骤2.2,对于步骤1得到的所述词语序列,以所述中心词语为中心,并从所述中心词语开始,分别向前逆向扫描和向后正向扫描;其中,向前逆向扫描方法为:在逆向扫描过程中,只要扫描到文档开始位置,即停止扫描;否则,向前逆向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于a,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;向后正向扫描方法为:在正向扫描过程中,只要扫描到文档结束位置,即停止扫描;否则,向后正向逐个扫描每个词语,并判断扫描到的词语距离所述中心词语的距离是否大于b,如果不大于,则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值;如果大于,则停止扫描;由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值;步骤2.3,步骤2....

【专利技术属性】
技术研发人员:王卿吴琼程工杜漫庞琳李雄刘春阳张旭
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1