【技术实现步骤摘要】
文本语义分析方法
本专利技术涉及自然语言处理中的文本语义分析方法,具体涉及文本数据词汇层面、句子层面语义分析方法与系统。
技术介绍
随着互联网技术和信息技术的不断发展,以及大数据时代的来临,特定
的数据不断丰富,数据总量越来越大,数据之间的关系也越来越复杂,如何准确且快速地从规模庞大的文本数据中提取有价值的信息成为现阶段我们面临的挑战。文本分词是自然语言处理必经步骤,一个好的分词对后续建模分析有着至关重要的影响。现有的英文分词都是基于空格来划分英文单词,虽得到了广泛的应用,但针对某一特定研究领域,现有的英文分词方法无法满足研究人员需要。对文档进行分词处理后,可根据词形和词频计算文本相似度,虽然这种方法模型简单,易于构造,但是没有考虑到文本内容中词汇语义上的联系,无法解决“一词多义”和“一义多词”的问题,同时准确性也有待提升。为解决以上问题,研究者们提出基于语义分析的文本相似度求解算法,而基于语义分析的文本相似度在准确性方面虽有较大的提升。但现有的基于语义分析的文本相似度求解算法模型复杂,耗时耗力,无法快速地计算长文档之间的相似度。基于此,本专利技术针对目前英 ...
【技术保护点】
1.文本语义分析方法,其特征在于,涉及两个粒度的文本语义处理,包括:S1:对输入的非结构化文本数据进行基于词汇层面的语义分析;S2:对输入的非结构化文本数据进行基于句子层面的语义分析;其特征在于:基于词汇层面语义分析S1的具体过程为:步骤S1‑1:对输入的非结构化文本数据进行文本预处理,分句,以及采用改进分词算法进行分词,得到分词后文档;步骤S1‑2:利用TF‑IDF模型对分词后文档进行建模,得到分词结果在文本中权重;步骤S1‑3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示;步骤S1‑4:将步骤S1‑2中得到的权重值与 ...
【技术特征摘要】
1.文本语义分析方法,其特征在于,涉及两个粒度的文本语义处理,包括:S1:对输入的非结构化文本数据进行基于词汇层面的语义分析;S2:对输入的非结构化文本数据进行基于句子层面的语义分析;其特征在于:基于词汇层面语义分析S1的具体过程为:步骤S1-1:对输入的非结构化文本数据进行文本预处理,分句,以及采用改进分词算法进行分词,得到分词后文档;步骤S1-2:利用TF-IDF模型对分词后文档进行建模,得到分词结果在文本中权重;步骤S1-3:将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示;步骤S1-4:将步骤S1-2中得到的权重值与步骤S1-3中得到的词向量表示进行加权求和,得到文档向量值表示;步骤S1-5:针对文档向量值采用余弦相似度计算文档之间相似度;基于句子层面语义分析S2的具体过程为:步骤S2-1:对输入的非结构化文本数据进行文本预处理,分句以及采用步骤S1-1中分词算法进行分词,得到分词后文档;步骤S2-2:利用组合标注器方法对分词后的文档进行词性标注,得到词性标注集;步骤S2-3:以步骤S1-1中的文本分词、步骤S2-2中的词性标注、句法分析、依存关系为基础,对输入的非结构文本数据进行主谓宾结构提取,提取文本信息中的主语,谓语,宾语。2.根据权利要求1所述的文本语义分析方法,其特征在于,在步骤S1-1中,具体分词处理步骤如下:在步骤S1-1中改进的分词算法是将正向最大匹配算法加入到英文分词方法中,进行文本分词;首先采用正向最大匹配算法对待分词文本进行基于词典的匹配分词,然后对不存在匹配的剩余文本就以英文常见的空格分词,循环往复,直到字符串为空,该算法解决了英文分词以空格分词仅得到单词的不足,得到单词和词组。3.根据权利要求1所述的文本语义分析方法,其特征在于,在步骤S1-3中,所述的将分词后文本进行Word2Vec模型训练得到词向量模型,使用训练得到的词向量模型,得到词的向量表示的具体过程如下:步骤S1-3-1:将分词后的文本转变为学习语料作为Word2Vec模型的输入,即将分词后文本存储为一行,去除所有的标点符号,保存格式设置为UTF-8;步骤S1-3-2:设置Word2Vec的参数,词向量维度设为200,上下窗口设为5,利用Skip-gram方法进行模型训练;步骤S1-3-3:使用训练好的Word2Vec模型,得到单词词向量;步骤S1-3-4:对词组中单词词向量每维度进行加和求平均得到词组的向量值。4.根据权利要求1所述的文本语义分析方法,其特征在于,在步骤S1-4中,所述的将权重值与词向量进行加权求和,得到文档向量值表示的具体过程如下:步骤S1-4-1:根据分词结果在文本中权重大小,选取Top20单词或词组表征本篇文档;步骤S1-4-2:将权重值与Word2Vec词向量结合,以TF-IDF的值作为词向量的权重值,进行加权求和求平均得到文档的向量值;doci表示第i个文本向量,wk,i表示第i个单词或词组在文档k...
【专利技术属性】
技术研发人员:谢前前,李欣,黄鲁成,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。