The invention discloses a method and device for vectorization of paragraphs. The method includes: building the feature set including multiple feature words; replacing the words in the processing paragraphs based on the preset knowledge base and getting the converted paragraphs; the words which belong to the feature set in the post converted paragraphs are characterized by the converted paragraphs and quantized to the converted paragraphs. The invention solves the technical problem that the vector based on words and sentences in the existing technology can not reflect the content structure characteristics of the normative text by using the context calculation distance based on words and sentences, and then the vectors calculated by clustering and other methods can not reflect the content structure characteristics of the normative text.
【技术实现步骤摘要】
段落向量化的方法和装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种段落向量化的方法和装置。
技术介绍
自然语言的向量化是NLP(NaturalLanguageProcessing,自然语言处理)技术一项艰巨的任务,是使用各种自然语言模型的基础,向量化的质量直接影响着最后的准确率。虽然很多公司都在使用各种向量化的技术,而且在开源平台中也有一定的向量化的工具,包括word2vector,sentence2vector等,但是针对不同文书特点及不同的需求,很难使用统一的抽象方法抽象出需求中真正需要的特征点。例如在解析法律文书等规范性文本时,需要对文本中的小段落根据内容进行划分成大段落,因此需要对每个小段落进行向量化,以抽象出分段的信息点,然而现有的一些向量化技术基本上都是基于词、句子的上下文来计算距离,再通过聚类等方法计算句子的向量,由于法律文书等相对广义范围的文本,有着更工整的结构和规范的语言,因此需要对文本中描述的内容结构和关键的描述内容进行向量化分类,使用现有的向量化技术分析出的向量,并不能反映文本的内容结构特点,并且法律文书是严谨类文书,有很多上下文相似 ...
【技术保护点】
1.一种段落向量化的方法,其特征在于,包括:构建包括多个特征词的特征集合;基于预设知识库对待处理段落中的词进行替代,得到转换后段落;将所述转换后段落中属于所述特征集合的词作为所述转换后段落的特征,对所述转换后段落进行向量化。
【技术特征摘要】
1.一种段落向量化的方法,其特征在于,包括:构建包括多个特征词的特征集合;基于预设知识库对待处理段落中的词进行替代,得到转换后段落;将所述转换后段落中属于所述特征集合的词作为所述转换后段落的特征,对所述转换后段落进行向量化。2.根据权利要求1所述的方法,其特征在于,构建包括多个特征词的特征集合,包括:基于所述预设知识库对包括多个段落的段落集合中的词进行替代,得到转换后段落集合;确定所述转换后段落集合的特征;从所述转换后段落集合的特征中选取预设数量的特征,构成所述特征集合。3.根据权利要求2所述的方法,其特征在于,从所述转换后段落集合的特征中选取预设数量的特征,包括:计算所述转换后段落集合的特征中每一个特征的信息熵增益;按照信息熵增益从大到小的顺序从所述转换后段落集合的特征中选取预设数量的特征。4.根据权利要求2所述的方法,其特征在于,基于所述预设知识库对包括多个段落的段落集合中的词进行替代之前,包括:使用一阶依存语法将所述段落集合中相同含义的词进行聚类。5.根据权利要求1-4任一项所述的方法,其特征在于,所述知识库包括词林的词分类知识库、专业词汇词典知识库和命名实体识别知识库。6.一种段落向量化的装置,其特征在于,包括:构建模块,...
【专利技术属性】
技术研发人员:石鹏,姜珂,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。