【技术实现步骤摘要】
项目标签预测方法、系统、电子设备及存储介质
[0001]本专利技术属于文本处理的
,具体地涉及一种项目标签预测方法、系统、电子设备及存储介质。
技术介绍
[0002]投资项目的文本分类是根据文本内容将项目文本划分为预先定义好的类别,准确而又快速的项目标签分类可节省大量人力物力,在信息检索和信息存储上发挥着重要作用。随着软件技术的发展和普及,投资项目的管理软件在投资项目行业都得到了深入应用。就目前而言的发改行业全口径投资项目数据涉及97个大行业和1380个小行业,现有技术采用人工标注的方式针对项目文本的标签分类使得处理过程中受限于人员限制,其中,人工标注的方法是由标签分类人员根据自身经验的判断为项目文本确定标签分类,由于标签分类人员之间的经验丰富性存在差异,导致在项目标签分类的准确性、全面性、效率性等方面上存在不足。
[0003]因此,如何实现投资项目的智能化标签分类以提升投资项目标签分类的准确度、全面性及效率性,显得尤为重要。
技术实现思路
[0004]为了解决上述技术问题,本专利技术提供了一种 ...
【技术保护点】
【技术特征摘要】
1.一种项目标签预测方法,其特征在于,包括:获取表征待分类投资项目的关键文本所对应的字符序列;将所述字符序列通过映射方式转换成若干嵌入表示,并将若干嵌入表示叠加得到项目信息词序列;其中,所述嵌入表示包括字符嵌入、位置嵌入及句子类型嵌入;通过Bert语言模型处理所述项目信息词序列输出词向量矩阵;针对所述词向量矩阵进行局部特征提取,并将提取的局部特征归一化处理得到池化结果;采用全连接对拼接后的所述池化结果进行变换处理得到整合特征;通过softmax分类器针对所述整合特征进行学习得到所述待分类投资项目的分类标签。2.根据权利要求1所述的项目标签预测方法,其特征在于,所述获取表征待分类投资项目的关键文本所对应的字符序列的步骤具体包括:将待分类投资项目的项目名称、主要建设内容及行业领域进行串接,得到所述待分类投资项目的关键文本;将所述关键文本中的停用词进行去除得到字符组;将所述字符组中的前n个词与标识符进行拼接,并将所述标识符置于首位,以形成所述关键文本对应的字符序列。3.根据权利要求1所述的项目标签预测方法,其特征在于,所述通过Bert语言模型处理所述项目信息词序列输出词向量矩阵的步骤具体包括:将所述项目信息词序列转化成unicode,并通过Unicode码位去除所述unicode中不合法字符及多余空格,得到信息词字符串;通过空格将所述信息词字符串中的中文字符进行分隔,并进行循环strip()操作,得到初始分词结果;针对初始分词结果进行深处理得到目标分词结果;将所述目标分词结果中的英文按照预设拆分原则进行拆分,得到词向量矩阵。4.根据权利要求3所述的项目标签预测方法,其特征在于,所述预设拆分原则具体为:将英文按照subword词表进行拆分,每个单词拆分后的subword尽可能地长,采用贪婪最长优先匹配算法,对于每个单词,指针i=0、j=len从后向前匹配,直至单词的前缀[i:j]是subword词表中的一个subword,则将其取出,进而设置i=j、j=len...
【专利技术属性】
技术研发人员:舒文华,徐绍珺,蔡伟,张克非,
申请(专利权)人:思创数码科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。