数据挖掘模型生命周期管理

2021年9月20日 27点热度 0条评论 来源: 数据挖掘工人

为成功地利用预测模型,您需要从开发阶段直至生产环境对模型进行全面管理。模型生命周期管理是由以下阶段组成的高效交替过程:

    • 确定业务目标

    • 访问和管理数据

    • 开发模型

    • 验证模型

    • 部署模型

    • 监控模型

确定业务目标

第一步确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。

典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。

访问和管理数据

第二步是管理大量增长的数据。数据管理和数据质量是挖掘流程的要素。这需要对涉及多种平台,含有多种数据源 (例如,应收账、应付账、呼叫报告、人口数据、财务数据、持卡人数据和征信局数据等) 的系统进行整合,并同步为清晰一致的格式。

这种数据管理过程需要保持分析模型开发和生产部署两种环境相对应,以生成一致性的数据,保证模型生命周期过程中使用单一版本的真实信息。SAS提供集成的数据质量例程和数据管理转换功能,生成单一版本真实信息,同时最大化整个分布式环境的灵活性和扩展性。

开发预测模型涉及收集相应数据、抽样、合并数据属性、进行细分分析和其他深层数据分析。例如,大量异构来源的数据源可能需要按客户和账户进行合并,可包括计费和付费交易数据、人口统计数字、财务数据等。然后进行转换,进一步丰富数据。转换包括:

 计算累积变量,如给定客户所有账户的最大余额和总余额。

 计算间隔变量,如某人成为客户已有多长时间,最后一次采购的价值等。

 对严重偏斜数据进行对数计算,如中等家庭收入。

 将多种模型分布转换为分类值。

 过滤异常点,替换缺失值。

 按共同属性将客户细化为分组。

 创建交互条件。

许多企业尽力为所有建模活动创建标准数据源。这样有利于审计活动、标准化最佳实践和简化部署,并取得了不同程度的成功。对于不变的业务目标,这种方法非常有效。不过,当出现新的目标变量时,数据建模人员往往需要返回原始数据系统,收集模型培训数据集市中不存在的新数据。最有效的方针是同时支持两种活动,为获取新数据采集逻辑并将其结合到模型培训数据集市中提供工具。

开发模型

第三步根据数据管理阶段定义的相应培训数据源构建模型。这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。

这些技术可根据业务目标来使用。应用信用评分模型时,数据的使用和模型形式应严格遵守美国公平放贷规定和新巴塞尔协定(Basel II)的规定。行为信用评分模型用于计算现有贷款组合费率,应遵守 Basel II 和萨班斯 .奥克斯利法案(Sarbanes-Oxley)的规定。许多企业有各自的最佳实践方针,规定了必须包含某些变量、必须排除的其他变量,以及必须遵守的既定细分机制。

因变量的定义可以有多种形式 (这种情况下一般指贷款违约),如自上次付款后的时间、迟付次数、应计利息比或正式贷款取消。客户获得和交叉销售模型以某个期间段和/或某些渠道以前促销活动的响应为基础。制造根源分析可以上报的单位批次故障率为基础。为随着时间按准确率跟踪模型性能,定义的应变量在时间跨度内必须是一致的。如果应变量定义发生变化,应注明为新的模型形式,并生成一套新的跟踪统计。

模型输入条件有类似的规定和部署限制。构建模型使用的数据必须是最新的,并可在模型部署生命周期和评分过程中调用。人口统计和交易数据源可能在模型生命周期期间改变它们的域定义和代码。因此,建模人员应构建具有可靠缺失值、缺失范围以及值校验逻辑的模型。避免使用已知不可靠或可能不一致的条件。

高度相关的输入变量会导致模型灵敏度问题,这种情况下,数据域相关值微小的变化会不可避免地造成预测值出现很大的偏差。这是模型准备长期投入生产环境中使用时,需要引起关注的一个典型问题。先进的变量选择、采用探索相关统计和变量聚合,可以有效地减少长期不稳定性。

许多企业采用优选备选策略。优选的往往是已在生产中使用,并以过去多个时间段数据为基础的模型。从不根据最近时间段的数据构建备选模型。在生成数千个模型的高吞吐量环境下,功能表几乎是固定的,只对模型进行重新培训。其他环境下,数据建模人员开发一套新的备选模型可能需要几周的时间。

对于模型监控和业务审计来说,优选模型和备选模型应同时在模型数据库中备案。应该根据代表最新的或最稳定样本的盲测数据对它们进行比较。

验证模型

随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。

验证模型不是一次性工作,而是一个持续的过程,一般包括以下主要任务:

 验证预判特征是否存在法律问题。尽管某些变量可以成为很好的预判特征,但用于预测模型时,它们会给企业带来风险。例如,出于法律因素考虑,建模过程中不能使用年龄、性别和/或种族等变量。

 验证数据分布。为确定分布随时间的变化,了解目标和预判变量初始分布特征是很重要的。如果检测到分布偏移,有必要根据新数据重新培训模型。

 验证分析算法。选择生成模型的算法需要进行验证,以确定是否可以用于预测模型。例如,某些模型(如决策树)可给出易于理解的结果。它们可帮助您解答“为什么拒绝这个客户信贷”等问题。其他模型(如神经网络)不能给出这类简单的解释,因此可能不适用于某些应用。这个阶段必须认真权衡判别度与预测精度。

 比较模型预测精度。对于特定数据挖掘项目,建模人员可采用多种工具生成一套潜在模型。利用工具很难比较模型,可能需要根据非模型生成过程中使用的独立数据源对模型进行比较。

 检查验证过程。验证过程会随时间而变化。一定要记录每一步验证过程。例如,谁何时输入何种模型;谁选择何种模型作为优选模型,何时选择以及为什么选择;谁检查优选模型是否符合监管规定;谁何时向何处发布优选模型。

 执行部署前评分测试。发布优选模型进行生产部署前,企业可能需要检测模型是否存在运行错误。这种部署前检验是很重要的,特别是模型部署在实时评分环境下时。10生产环境下预测模型管理最佳实践

 监控模型性能。优选模型发布后,可以在生产环境下反复部署。一般情况下,模型性能会随着时间而下降。企业需要系统化地检查性能下降,以便淘汰过时的模型,建立新模型。监控自动化一开始设计不当,模型性能监控流程会耗费时间,并且容易出错。

模型验证是一种业务流程。没有良好的软件工具不可能以高效和可管理的方式进行验证。

部署模型

经验证后,企业需要将模型部署到生产环境中。这需要实施评分系统,将模型功能应用于没有应变量的新数据。大部分评分系统是批次型的,成千上百万条纪录输入到一个或多个模型中。如果企业有高效定义的通用建模数据集,一项数据构成作业可组成一个表单用于大量模型。开展直销促销活动时,这项工作可由建模或IT人员来完成,将计分发送给促销执行人员。为进行监控,在有应变量新值的情况下,可每月对模型进行一次评分,将实际性能与预期性能进行比较。

监控模型

最后一步是管理生产环境下的模型,包括在操作平台上运行、执行模型性能报告、发布生成的报表和重新验证模型。当客户群的发展需要新的抽样数据,或预测因素发生变化时,需要在模型生命周期过程中定期重复进行数据管理。

优选预测模型在生产环境中部署一段期间后,其预测性能往往会随着时间而下降。当性能下降到某一阈值时,应淘汰选装的模型。因此,模型监控应成为一项例行工作,及时识别达不到性能要求的模型,避免因模型过时产生问题。当有大量在用生产模型时,会带来以下问题:“企业如何经济高效地管理模型性能监控工作?”出色的模型监控工具可以为此提供支持。

    原文作者:数据挖掘工人
    原文地址: https://blog.csdn.net/goodhuajun/article/details/39554733
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系管理员进行删除。