文本中新词发现的方法和装置制造方法及图纸

技术编号：12393056 阅读：91 留言：0更新日期：2015-11-26 00:50

本发明专利技术提供一种文本中新词发现的方法和装置，能够自动发现文本中字的特征，并通过挖掘字的特征向量的相似度从文本中发现出新词，节省了现有技术中观察数据特征的时间，提高新词发现的效率。该方法包括：将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种文本中新词发现的方法和装置。
技术介绍
随着自然语言处理技术的近年来的不断发展，新词发现也变得越来越重要（本文中的新词发现是指将文本中词语发现出来，为后续进行的分词、标注、主体提取等操作做准备）。可以说词是我们做自然语言处理的第一步也是最重要的一步。只有当我们已经有词的时候，我们才可以对含有这些词的文本进行分词、标注、主题提取等后续操作。此外，随着网络新词激增，新词发现技术不仅要发现目前还没有的词，还要发现每天不断涌现出的新 1·^] O 近年来，新词发现已经有很多技术，例如可以通过隐马尔可夫模型、条件随机场等模型在文本中进行新词发现。隐马尔可夫模型（Hidden Markov Model，HMM)是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型作为一种统计分析模型，创立于20世纪70 年代。80年代得到了传播和发展，成为信号处理的一个重要方向，现已成功地用于语音识另IJ，行为识别，文字识别以及故障诊断等领域。条件随机场（conditional random fields，简称CRF，或CRFs)，是一种判别式概率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。但是，现有的隐马尔可夫模型、条件随机场等模型在文本中新词发现的过程中仍存在一定的缺陷：它们都需要通过人工的方法来发现字与字的特征，需要花费大量的时间观察大量的数据去总结。因此，现有技术中利用隐马尔可夫模型、条件随机场等模型的计算代价高，耗时长。
技术实现思路
有鉴...
文本中新词发现的方法和装置

【技术保护点】
一种文本中新词发现的方法，其特征在于，包括：将文本中的每个字分隔开，利用深度神经网络算法提取每个字的特征向量；计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序；选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词，并输出所述文本新词。

【技术特征摘要】

【专利技术属性】
技术研发人员：邵佳帅，牟川，邢志峰，
申请(专利权)人：北京京东尚科信息技术有限公司，北京京东世纪贸易有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人