【技术实现步骤摘要】
文本分类方法、装置、电子设备及可读存储介质
本专利技术涉及智能决策领域,尤其涉及一种文本分类方法、装置、电子设备及可读存储介质。
技术介绍
企业在对不动产进行评估时,为了控制不动产的生产成本的同时达到精准生产的要求,需要从不动产的各类文本中提取相关信息,进而全面了解不动产的相关情况。随着企业的规模增加,不动产文本数量也随之增加,如何处理大量的不动产文本并正确分类是个亟需解决的问题。目前对于不动产文本的分类,都是利用传统的Text-RNN模型根据不动产文本的整体信息对不动产文本进行分类,但是这样的方式,缺少了对不动产文本中关键词的局部信息的提取,导致对于不动产文本的分类准确度较低,不利于企业对不动产的评估。
技术实现思路
本专利技术提供一种文本分类方法、装置、电子设备及可读存储介质,其主要目的在于提高文本分类的准确率。为实现上述目的,本专利技术提供的一种文本分类方法,包括:接收原始文本,并对所述原始文本进行清洗,得到目标文本,对所述目标文本进行语义信息提取,得到文本语义信息; ...
【技术保护点】
1.一种文本分类方法,其特征在于,所述方法包括:/n接收原始文本,并对所述原始文本进行清洗,得到目标文本,对所述目标文本进行语义信息提取,得到文本语义信息;/n对所述目标文本进行分词,得到分词集,从所述分词集中提取关键词集,并获取所述关键词集的词性信息集以及所述关键词集在所述目标文本中的位置信息集;/n利用预设的向量编码映射表将所述关键词集、位置信息集及词性信息集转换为关键词向量集、位置信息向量集及词性信息向量集;/n对所述关键词向量集、位置信息向量集及词性信息向量集进行向量拼接,得到目标词向量集;/n利用预先训练完成的语义识别模型识别所述目标词向量集中每个目标词向量的语义 ...
【技术特征摘要】
1.一种文本分类方法,其特征在于,所述方法包括:
接收原始文本,并对所述原始文本进行清洗,得到目标文本,对所述目标文本进行语义信息提取,得到文本语义信息;
对所述目标文本进行分词,得到分词集,从所述分词集中提取关键词集,并获取所述关键词集的词性信息集以及所述关键词集在所述目标文本中的位置信息集;
利用预设的向量编码映射表将所述关键词集、位置信息集及词性信息集转换为关键词向量集、位置信息向量集及词性信息向量集;
对所述关键词向量集、位置信息向量集及词性信息向量集进行向量拼接,得到目标词向量集;
利用预先训练完成的语义识别模型识别所述目标词向量集中每个目标词向量的语义信息,得到词语义信息集;
根据所述目标文本的文本语义信息和所述词语义信息集,识别所述目标文本的文本类别。
2.如权利要求1所述的文本分类方法,其特征在于,所述对所述原始文本进行清洗,得到目标文本,包括:
利用预设的正则表达式对所述原始文本中的符号进行匹配,将与所述正则表达式匹配成功的符号过滤,得到所述目标文本。
3.如权利要求1所述的文本分类方法,其特征在于,所述获取所述关键词集的词性信息集以及所述关键词集在所述目标文本中的位置信息集,包括:
对所述关键词集中的每个关键词进行词性标注,得到所述关键词集的词性信息集;
对所述关键词集中的每个关键词进行位置编码,得到所述关键词集在所述目标文本中的位置信息集。
4.如权利要求3所述的文本分类方法,其特征在于,所述对所述关键词向量集、位置向量集集及词性向量集进行向量拼接之前,还包括:
识别所述关键词向量集中每个关键词向量中的字符数量是否超过预设数量;
若所述关键词向量中的字符数量未超过预设数量,则将所述关键词向量作为所述向量拼接的关键词向量;
若所述关键词向量中的字符数量超过预设数量,则对所述关键词向量、关键词向量中的每个字向量进行组合后作为所述所述向量拼接的关键词向量。
5.如权利要求4所述的文本分类方法,其特征在于,所述对所述关键词向量、关键词向量中的每个字向量进行组合后作为所述所述向量拼接的关键词向量,包括:
利用下述方法组合所述关键词向量、关键词向量中的每个字向量:
其中,wemb表示向量拼接的关键词向量,wordemb表示...
【专利技术属性】
技术研发人员:蒋宏达,徐国强,
申请(专利权)人:深圳壹账通智能科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。