文本中新词发现的方法和装置制造方法及图纸

技术编号:12393056 阅读:91 留言:0更新日期:2015-11-26 00:50
本发明专利技术提供一种文本中新词发现的方法和装置,能够自动发现文本中字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观察数据特征的时间,提高新词发现的效率。该方法包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种文本中新词发现的方法和装置
技术介绍
随着自然语言处理技术的近年来的不断发展,新词发现也变得越来越重要(本文 中的新词发现是指将文本中词语发现出来,为后续进行的分词、标注、主体提取等操作做准 备)。可以说词是我们做自然语言处理的第一步也是最重要的一步。只有当我们已经有词 的时候,我们才可以对含有这些词的文本进行分词、标注、主题提取等后续操作。此外,随着 网络新词激增,新词发现技术不仅要发现目前还没有的词,还要发现每天不断涌现出的新 1·^] O 近年来,新词发现已经有很多技术,例如可以通过隐马尔可夫模型、条件随机场等 模型在文本中进行新词发现。 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有 隐含未知参数的马尔可夫过程。隐马尔可夫模型作为一种统计分析模型,创立于20世纪70 年代。80年代得到了传播和发展,成为信号处理的一个重要方向,现已成功地用于语音识 另IJ,行为识别,文字识别以及故障诊断等领域。 条件随机场(conditional random fields,简称CRF,或CRFs),是一种判别式概率 模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。 但是,现有的隐马尔可夫模型、条件随机场等模型在文本中新词发现的过程中仍 存在一定的缺陷:它们都需要通过人工的方法来发现字与字的特征,需要花费大量的时间 观察大量的数据去总结。因此,现有技术中利用隐马尔可夫模型、条件随机场等模型的计算 代价高,耗时长。
技术实现思路
有鉴于此,本专利技术提供一种文本中新词发现的方法和装置,能够自动发现文本中 字的特征,并通过挖掘字的特征向量的相似度从文本中发现出新词,节省了现有技术中观 察数据特征的时间,提高新词发现的效率。 为实现上述目的,根据本专利技术的一个方面,提供了一种文本中新词发现的方法。 本专利技术的文本中新词发现的方法包括:将文本中的每个字分隔开,利用深度神经 网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将 计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本 新词,并输出所述文本新词。 可选地,所述方法还包括:在将文本中的每个字分隔开之前,将所述文本按照标点 符号进行分行,使每行成为一个短文本。 可选地,所述方法还包括:在利用深度神经网络算法提取每个字的特征向量之后, 对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。 可选地,所述方法还包括:在将计算结果排序之后,去除所述计算结果中相同两字 的组合及字母和/或数字的组合。 可选地,所述方法还包括:在选取所有所述夹角余弦值大于预设阈值的相邻两个 字的顺序组合作为文本新词之后,遍历所述文本新词,判断是否存在两个文本新词,其中一 个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本新词 按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在所述文本 中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存在,则 保留合并前的两个文本新词。 根据本专利技术的另一方面,提供一种文本中新词发现的装置。 本专利技术的文本中新词发现的装置包括:提取模块,用于将文本中的每个字分隔开, 利用深度神经网络算法提取每个字的特征向量;计算模块,用于计算文本中每相邻两个字 的特征向量的夹角余弦值并将计算结果排序;选取模块,用于选取所有所述夹角余弦值大 于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。 可选地,所述提取模块还用于:在将文本中的每个字分隔开之前,将所述文本按照 标点符号进行分行,使每行成为一个短文本。 可选地,所述提取模块还用于:在利用深度神经网络算法提取每个字的特征向量 之后,对所述每个字按照字为键、特征向量为值的形式生成哈希字典进行存储。 可选地,所述计算模块还用于:在将计算结果排序之后,去除所述计算结果中相同 两字的组合及字母和/或数字的组合。 可选地,所述选取模块还用于:在选取所有所述夹角余弦值大于预设阈值的相邻 两个字的顺序组合作为文本新词之后,遍历所述文本新词,判断是否存在两个文本新词,其 中一个文本新词的最后一个字是另一个文本新词的第一个字,若存在,则将所述两个文本 新词按照顺序合并去掉中间重复字得到一个新的文本新词;判断所述新的文本新词在所述 文本中是否存在,若存在,则删除合并前的两个文本新词,保留所述新的文本新词;若不存 在,则保留合并前的两个文本新词。 根据本专利技术的技术方案,通过将文本拆分成短文本,从而能减少计算的复杂程度; 通过将文本中的一个一个字拆分开,从而能保证计算机对文本中单个字符的识别;通过深 度神经网络提取每个字的特征向量,从而能保证对字的特征向量的自动提取,节省观察数 据特征的时间;通过对提取后的字与其特征向量的哈希字典存储,从而能保证特征向量提 取结果的有效存储,同时方便后续处理过程对提取结果的有效查询和运用;通过对文本中 每相邻两个字的特征向量的余弦距离的计算,从而能方便判断出每相邻两个字是否是一个 文本新词;通过对每相邻两个字的特征向量余弦距离的计算结果的排序,从而方便对夹角 余弦值大的相邻两个字的顺序组合的选取;通过对计算结果中相同两字的组合以及数字和 /或字母组合等干扰项的剔除,从而能保障得到的下述选取结果的高质量;通过对所有所 述夹角余弦值大于预设阈值的相邻两个字的顺序组合的选取,从而能得到文本新词;通过 对文本新词结果中含有共有字的文本新词的合并,从而能准确的得到由多个字组成文本新 1·^] O【附图说明】 附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中: 图1是根据本专利技术实施例的文本中新词发现的方法的主要步骤的示意图; 图2是根据本专利技术实施例的文本中新词发现的方法的具体流程的示意图; 图3是根据本专利技术实施例的文本中新词发现的装置的主要模块的示意图。【具体实施方式】 以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种 细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识 到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同 样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。 图1是根据本专利技术实施例的文本中新词发现的方法的主要步骤的示意图当前第1页1 2 3 本文档来自技高网...
文本中新词发现的方法和装置

【技术保护点】
一种文本中新词发现的方法,其特征在于,包括:将文本中的每个字分隔开,利用深度神经网络算法提取每个字的特征向量;计算文本中每相邻两个字的特征向量的夹角余弦值并将计算结果排序;选取所有所述夹角余弦值大于预设阈值的相邻两个字的顺序组合作为文本新词,并输出所述文本新词。

【技术特征摘要】

【专利技术属性】
技术研发人员:邵佳帅牟川邢志峰
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1