针对特定领域的新词发现方法技术

技术编号：13348455 阅读：59 留言：0更新日期：2016-07-15 02:03

本发明专利技术提供一种针对特定领域的新词发现方法，包括以下步骤：步骤1，文档预处理；步骤2，构建候选新词集；其中，每个候选新词由词语、该词语距离所述中心词语的距离向量值以及所述中心词语均采用新词表述方式表达。步骤3，候选新词挖掘；优点为：针对特定领域的新词发现方法，采用更灵活的新词表达方式，将数据挖掘领域的关联规则方法引入新词发现过程，并创新地提出将词汇与指定关键词的距离向量作为关联规则挖掘的重要特征，由此可快速准确全面的识别出文档包含的所有新词。

全部详细技术资料下载

【技术实现步骤摘要】
针对特定领域的新词发现方法
本专利技术属于新词发现以及文本挖掘
，具体涉及一种针对特定领域的新词发现方法。
技术介绍
随着信息技术和互联网技术的飞速发展，网络上充斥着各种各样的信息，并呈现出指数增长的趋势。在各个专业领域，互联网信息也爆炸式地产生和增长。在上述网络信息增长过程中，新词不断涌现，对于中文新词的发现，尤其是特定领域的中文新词发现，具有重要意义：一方面，新词的大量而快速地涌现，严重影响中文分词结果的质量，致使分词结果中出现较多的不可识别的“单字”，大大降低了分词结果的准确率，最近的研究还显示，60％的分词错误是由新词导致的，因此，有效地识别新词，将为观察研究分析语言现象的动态变化、规范语言文字以及提高中文自动分词的总体效果起到重要的作用。另一方面，新词发现对于舆情监控、话题检测等挖掘技术的应用也十分关键，可以说，新词发现是这些应用的基础和前提。由此可见，准确高效的发现新词，具有重要意义。现有技术中虽然出现了少量的新词发现算法，但是，现有的新词发现算法，普遍具有算法复杂度高的问题，难以快速准确的识别出新词；还具有新词识别不全面的问题，难以全面识别出被分析文档包含的所有新词。
技术实现思路
针对现有技术存在的缺陷，本专利技术提供一种针对特定领域的新词发现方法，可有效解决上述问题。本专利技术采用的技术方案如下：本专利技术提供一种针对特定领域的新词发现方法，包括以下步骤：步骤1，文档预处理：基于中文词库，采用中文分词算法对所述原始文档集进行中文分词处理，将所述原始文档集转化为词语序列；步骤2，构建候选新词集，包括：步骤2.1，指定所述词语序列中的某个词...
针对特定领域的新词发现方法

【技术保护点】
一种针对特定领域的新词发现方法，其特征在于，包括以下步骤：步骤1，文档预处理：基于中文词库，采用中文分词算法对所述原始文档集进行中文分词处理，将所述原始文档集转化为词语序列；步骤2，构建候选新词集，包括：步骤2.1，指定所述词语序列中的某个词语作为中心词语，并设定扫描窗口区间；其中，设所述扫描窗口区间为[‑a,+b]；a和b为正整数或0，并且，a等于或不等于b；步骤2.2，对于步骤1得到的所述词语序列，以所述中心词语为中心，并从所述中心词语开始，分别向前逆向扫描和向后正向扫描；其中，向前逆向扫描方法为：在逆向扫描过程中，只要扫描到文档开始位置，即停止扫描；否则，向前逆向逐个扫描每个词语，并判断扫描到的词语距离所述中心词语的距离是否大于a，如果不大于，则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值；如果大于，则停止扫描；向后正向扫描方法为：在正向扫描过程中，只要扫描到文档结束位置，即停止扫描；否则，向后正向逐个扫描每个词语，并判断扫描到的词语距离所述中心词语的距离是否大于b，如果不大于，则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值；如果大于，则停止扫描；由此...

【技术特征摘要】
2015.03.16 CN 20151011331701.一种针对特定领域的新词发现方法，其特征在于，包括以下步骤：步骤1，文档预处理：基于中文词库，采用中文分词算法对原始文档集进行中文分词处理，将所述原始文档集转化为词语序列；步骤2，构建候选新词集，包括：步骤2.1，指定所述词语序列中的某个词语作为中心词语，并设定扫描窗口区间；其中，设所述扫描窗口区间为[-a,+b]；a和b为正整数或0，并且，a等于或不等于b；步骤2.2，对于步骤1得到的所述词语序列，以所述中心词语为中心，并从所述中心词语开始，分别向前逆向扫描和向后正向扫描；其中，向前逆向扫描方法为：在逆向扫描过程中，只要扫描到文档开始位置，即停止扫描；否则，向前逆向逐个扫描每个词语，并判断扫描到的词语距离所述中心词语的距离是否大于a，如果不大于，则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值；如果大于，则停止扫描；向后正向扫描方法为：在正向扫描过程中，只要扫描到文档结束位置，即停止扫描；否则，向后正向逐个扫描每个词语，并判断扫描到的词语距离所述中心词语的距离是否大于b，如果不大于，则记录扫描到的每个词语以及该词语距离所述中心词语的距离向量值；如果大于，则停止扫描；由此得到扫描窗口内的每个词语以及该词语距离所述中心词语的距离向量值；步骤2.3，步骤2....

【专利技术属性】
技术研发人员：王卿，吴琼，程工，杜漫，庞琳，李雄，刘春阳，张旭，
申请(专利权)人：国家计算机网络与信息安全管理中心，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人