【技术实现步骤摘要】
一种地产行业定量文本提取方法、系统、设备及存储介质
[0001]本专利技术实施例涉及数据分析领域,具体涉及一种地产行业定量文本提取方法、系统、设备及存储介质。
技术介绍
[0002]目前在地产行业使用的用户画像标签多依托于业务数据为主,需要从大量置业顾问备注的对话文本中提取用户相关的定量信息,但对话文本是一种非正式文本,文本的内容与形式过于多元化,难以有效地提取出需要的定量信息。
[0003]现有的定量文本提取技术大多基于深度学习算法模型,需要对领域文本进行大量的文本标注,人力成本高,导致定量提取效率较低;同时现有技术仅能从含有标准定量信息的文本中提取出标准化的定量信息,无法实现对非正式文本中定量信息的标准化提取,从而导致现有的定量信息提取技术的提取对象单一。
技术实现思路
[0005]为此,本专利技术实施例提供一种地产行业定量文本提取方法、系统、设备及存储介质,以解决现有的定量文本提取技术定量提取效率低、定量提取对象单一的问题。
[0006]为了实现上述目的,本专利技术实施例提供如下技术方案 ...
【技术保护点】
【技术特征摘要】
1.一种地产行业定量文本提取方法,其特征在于,所述方法包括:获取地产行业的置业顾问在每次接待访客后输入的对话文本;对所述对话文本进行标签匹配,根据标签匹配结果对所述对话文本进行标注,利用标注后的对话文本作为第一标签文本对;基于所述第一标签文本对中的标签,对所述第一标签文本对中的模糊量词进行数据清洗,得到第二标签文本对;根据所述第二标签文本对中标签的标签类型,对所述第二标签文本对中的定量文本进行标准化处理,得到标准标签文本对;将所述标准标签文本对输入至预先训练好的定量文本提取标注模型中,得到定量标签数据对;对所述定量标签数据对进行校验处理,根据校验结果对所述定量标签数据对进行补全,得到校验通过的标准定量数据对。2.如权利要求1所述的一种地产行业定量文本提取方法,对所述对话文本进行标签匹配,根据标签匹配结果对所述对话文本进行标注,利用标注后的对话文本作为第一标签文本,包括:基于所述对话文本中的标点符号,对所述对话文本进行短句分割处理,得到分割后的短句文本;针对各个所述短句文本,基于预设词定标签库,对所述短句文本进行词定标签匹配,判断所述预设词定标签库中是否存在词定标签与所述短句文本匹配;若所述预设词定标签库中不存在词定标签与所述短句文本匹配,则将所述短句文本废弃;若所述预设词定标签库中存在词定标签与所述短句文本匹配,则利用匹配到的词定标签对所述短句文本进行标注,将标注后的短句文本作为第一标注短句文本;利用所述词定标签对应的预设词滤标签库,对所述第一标注短句文本进行词滤标签匹配,判断所述预设词滤标签库中是否存在词滤标签与所述第一标注短句文本匹配;若所述预设词滤标签库中不存在词滤标签与所述第一标注短句文本匹配,则将所述第一标注短句文本废弃;若所述预设词滤标签库中存在词滤标签与所述第一标注短句文本匹配,则利用匹配到的词滤标签对所述第一标注短句文本进行二次标注,得到第二标注短句文本;将所述第二标注短句文本对应的所述对话文本以及前后各两段相邻对话文本按照顺序进行拼接,得到目标长文本;利用预设滑动窗口从所述目标长文本的首端向后依次截取预设数量的短句文本,得到滑动截取文本;针对所述滑动截取文本,分别计算所述滑动截取文本与所述词滤标签对应的预设语料库中的各个预设语料文本的向量相似度,得到向量相似度计算结果;判断所述向量相似度计算结果是否大于或等于预设相似度阈值;若所述向量相似度计算结果大于或等于预设相似度阈值,则根据所述第二标注短句文本对应的对话文本以及对应的词定标签,得到第一标签文本对;若所述向量相似度小于预设相似度阈值,则判断所述滑动窗口是否已滑动至所述目标
长文本的末端;若所述滑动窗口未滑动至所述目标长文本的末端,则所述滑动窗口在当前位置向所述目标长文本的末端滑动一个短句文本的距离,循环至截取预设数量的短句文本,得到滑动截取文本;若所述滑动窗口已滑动至所述目标长文本的末端,则根据所述第二标注短句文本以及对应的词滤标签,得到第一标签文本对。3.如权利要求2所述的一种地产行业定量文本提取方法,其特征在于,基于所述第一标签文本对中的标签,对所述第一标签文本对中的模糊量词进行数据清洗,得到第二标签文本对,包括:利用所述第一标签文本对中的标签与预设的第一定量标签库进行匹配,得到第一匹配结果;判断所述第一匹配结果是否为成功;若所述第一匹配结果为失败,则不对所述第一标签文本对进行数据清洗处理;若所述第一匹配结果为成功,则对所述第一标签文本对中的文本进行文本结构检测,得到检测结果;根据所述检测结果,判断所述第一标签文本对中的文本是否存在模糊量词;若所述第一标签文本对中的文本存在模糊量词,则根据预设模糊量词清洗方案,对所述模糊量词进行数据清洗处理,得到第二标签文本对;若所述第一标签文本对中的文本不存在模糊量词,则直接将所述第一标签文本对作为第二标签文本对。4.如权利要求3所述的一种地产行业定量文本提取方法,其特征在于,根据所述第二标签文本对中标签的标签类型,对所述第二标签文本对中的定量文本进行标准化处理,得到标准标签文本对,包括:利用所述第二标签文本对中的标签与预设的第二定量标签库进行匹配,得到第二匹配结果;判断所述第二匹配结果是否成功;若所述第二匹配结果为失败,则不对所述第二标签文本对中的文本进行定量文本标准化处理;若所述第二匹配结果为成功,则判断匹配到的定量标签是否为时间类标签;若所述定量标签为所述时间类标签,则通过正则匹配从所述第二标签文本对中提取出时间文本;基于预设时间标准模板,将所述时间文本转化为标准时间文本,并利用所述标准时间文本替换所述第二标签文本对中的时间文本;若所述定量标签不是所述时间类标签,则判断所述定量标签是否为金额类标签;若所述定量标签为所述金额类标签,则通过正则匹配从所述第二标签文本对中提取出第一金额文本;判断所述第一金额文本中的金额数值是否符合预设金额范围;若所述第一金额文本中的金额数值不符合预设金额范围,则不将所述第一金额文本作为第二金额文本;
若所述第一金额文本中的金额数值符合预设金额范围,则利用标准金额单位符号替换所述第一金额文本中的单位文本,得到第二金额文本;判断所述第二金额文本中是否存在叠词;若所述第二金额文本中存在叠词,则对所述第二金额文本中的叠词进行叠词去冗处理,得到第三金额文本;若所述第二金额文本中不存在叠词,则直接将所述第二金额文本作为所述第三金额文本;判断所述第三金额文本中是否存在金额数值文本;若所述第三金额文本中存在金额数值文本,则将所述金额数值文本...
【专利技术属性】
技术研发人员:徐星晨,朱亮,
申请(专利权)人:金茂云科技服务北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。