【技术实现步骤摘要】
一种基于地产行业的录音文本标签体系构建方法及系统
[0001]本专利技术实施例涉及大数据
,具体涉及一种基于地产行业的录音文本标签体系构建方法及系统。
技术介绍
[0002]目前在地产领域从录音文本中获取标签并建立体系的技术尚未成熟,多以业务数据产生的标签为主,不具备组织、管理、规划标签的类目体系方法,所以需要参照其他领域的标签体系进行构建,让用户可以根据可理解的分类方式快速查找数据、标签。
[0003]标签体系的建立离不开标签的设计,标签的种类根据的来源不同可以分为基础类、加工类与挖掘类三种。基础类可以由业务数据产生。加工类标签一般为统计指标,可根据业务数据计算获得。挖掘类标签包含有数据挖掘和文本挖掘,一般文本的挖掘类标签体系构建方案根据标签体系的拓展性可以分为两类:(1)人工根据文本内容和领域经验进行标签体系设计,文本数据的标签信息由业务人员进行标注;(2)根据业务产生的文本数据和业务需求进行标签体系设计,并参照领域经验构建关键词库与同义词林,结合词库与既定正则对业务文本进行词语抽取与词频统计,再将高频词纳 ...
【技术保护点】
【技术特征摘要】
1.一种基于地产行业的录音文本标签体系构建方法,其特征在于,所述方法包括:全面采集项目现场的对话录音;对所述对话录音进行转录,生成第一转录文本集合;利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系;利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合;对所述第二转录文本集合中的文本执行分词并计算每个分词的词频;按照词频排序,选取预设数量的高频词作为二级标签;根据所述二级标签与所述第二转录文本集合中文本的对应关系,得到所述二级标签与所述一级标签的第一映射关系;利用所述第一映射关系,将所述二级标签纳入所述一级标签体系中,生成二级标签体系。2.如权利要求1所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,利用所述第一转录文本集合进行业务需求分析生成一级标签,并构建一级标签体系,包括:以人、物、关系为基础框架,通过分析地产领域数据情况和业务需求,确定体系根节点的属性标签;针对每个属性标签分别设置静态标签、动态标签与挖掘标签;根据每个属性标签下的静态标签、动态标签与挖掘标签,利用所述第一转录文本集合进行业务需求分析,生成各自对应的一级标签并构建第一标签体系;其中,所述属性标签包括:人标签、项目标签、前置标签。3.如权利要求1所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,利用所述一级标签对所述第一转录文本集合进行筛选,得到第二转录文本集合,包括:以句子为单位获取当前一级标签命中的录音文本数据;对所述录音文本数据进行文本数据预处理,并构建语料库;利用所述语料库中的语料提取新词;利用通用词库已有词对提取出的新词进行过滤、筛选,生成可用新词;利用所述可用新词对通用词库进行扩充;基于扩充后的通用词库和预设第一分词模型对所述语料库中的语料执行第一分词,得到第一分词语料;利用所述第一分词语料作为训练数据对所述第一分词模型进行训练,得到第二分词模型;利用第二分词模型对所述语料库中的语料执行第二分词,得到第二分词语料;利用每个一级标签对应的第二分词语料和录音文本数据分别得到第一句向量和第二句向量;计算各个一级标签对应的所述第一句向量和所述第二句向量的余弦相似度;判断所述余弦相似度是否达到第一阈值;如果所述余弦相似度达到第一阈值,则将所述第二分词语料作为二级标签语料文本,并判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;如果所述余弦相似度未达到第一阈值,则直接判断第二分词语料和录音文本数据中是否存在一级标签对应文本未进行句向量处理;
如果第二分词语料和录音文本数据中存在一级标签对应文本未进行句向量处理,则循环对下一未处理的一级标签对应文本进行句向量处理;如果第二分词语料和录音文本数据中不存在一级标签对应文本未进行句向量处理,则利用当前得到的二级标签语料文本生成第二转录文本集合。4.如权利要求3所述的一种基于地产行业的录音文本标签体系构建方法,其特征在于,利用所述语料库中的语料提取新词,包括:对所述语料库中的语料进行第三分词;计算第三分词结果中的各个分词的左右信息熵H和互信息凝合度PMI;判断所述左右信息熵H是否达到第二阈值,以及所述互信息凝合度PMI是否达到第三阈值;如果所述左右信息熵H达到第二阈值且所述互信息凝合度PMI...
【专利技术属性】
技术研发人员:徐星晨,朱亮,薛健,朱高鹏,
申请(专利权)人:金茂云科技服务北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。