项目说明
项目背景
在企业销售管理中,商机赢单概率的准确预测对资源配置和业绩达成至关重要。传统预测依赖销售经理的个人经验,缺乏数据驱动的量化依据。本项目基于真实商机数据,构建了一套商机赢单概率预测系统,通过机器学习模型对历史商机特征进行学习,实现未签约商机的赢率预测与校准,为销售决策提供数据支持。
核心目标
- •基于历史商机数据预测未签约商机的赢单概率
- •识别影响赢率的关键特征因素(签约方式、客户预算等)
- •通过 Platt Scaling 校准模型输出概率,提高预测可靠性
- •按商机责任人维度输出 Top5 未签约高赢率商机
技术栈
数据来源
真实商机数据,共 2,433 条商机记录,涵盖整车、零部件、研发、供应链、营销服务等多个业务线。
主要功能模块
基于 5 折交叉验证,综合 F1、AUC、Precision、Recall 等指标筛选最优模型
量化签约方式、客户预算、业务子类型、人员规模等 10 维特征对赢单概率的影响权重
通过 Platt Scaling 校准模型概率,按分位对比实际与预测转化率,确保高分段预测可靠
商机赢单概率预测报告
智能商机预测系统 — 数据驱动商机管理
模型准确率
算法选择对比与筛选依据
以下为四种候选模型在 2,433 条商机样本上的表现对比(5折交叉验证)。综合评价后选择 LightGBM 作为最终模型。
| 模型 | F1 Score | AUC-ROC | Precision | Recall | Accuracy |
|---|---|---|---|---|---|
| LightGBM ✓ 已选 | 80.19% | 93.86% | 81.37% | 79.05% | 91.58% |
| XGBoost | 76.56% | 93.82% | 76.92% | 76.19% | 89.94% |
| RandomForest | 77.88% | 94.25% | 78.64% | 77.14% | 90.55% |
| LogisticRegression | 72.81% | 90.98% | 70.54% | 75.24% | 87.89% |
选择 LightGBM 的理由:
- •综合性能最高:LightGBM 在 F1(80.19%)、Precision(81.37%)、Recall(79.05%)、Accuracy(91.58%)四项指标上均排名第一。AUC-ROC 虽略低于 RandomForest(93.86% vs 94.25%),但差距极小。
- •训练效率优势:LightGBM 基于直方图的算法在大数据集上训练速度比 XGBoost 快 3-5 倍,比 RandomForest 快 10 倍以上,且内存占用更低。
- •不平衡数据处理:商机数据中已签约与未签约比例为 525:1908(约 1:3.6),存在一定不平衡。LightGBM 内置了处理不平衡样本的机制(scale_pos_weight 参数),无需额外采样。
- •实际业务要求:Precision 和 Recall 的平衡至关重要——既要尽可能找到高赢率商机(高 Recall),又要避免过多误报影响销售跟进(高 Precision)。LightGBM 的 F1 最高,说明平衡最好。
- •校准友好:LightGBM 输出的原始概率经过 Platt Scaling 校准后,在高分段(90%-100%)偏差仅 1.59%,适合按阈值筛选高赢率商机。
模型指标说明
关键指标解释(以商机赢率预测为例):
• F1 Score(F1分数):精确率和召回率的调和平均数,综合衡量模型性能。值越高说明模型在"找得准"和"找得全"之间平衡越好。当前最佳 80.19%。
• AUC-ROC(ROC曲线下面积):衡量模型区分"会赢"和"不会赢"两种商机的能力。可以理解为:随机抽一个已签约和一个未签约商机,模型把已签约排在前面的概率。当前 93.86%,区分能力很强。
• Precision(精确率):模型预测为"赢单"的商机中,实际真正赢单的比例。例如 Precision 81.37% 意味着模型预测赢单的商机中,约 81% 确实赢了。
• Recall(召回率):所有实际赢单的商机中,模型正确识别出的比例。例如 Recall 79.05% 意味着所有已签约商机中,约 79% 被模型正确预测到了。
• Accuracy(准确率):模型对所有商机的预测中,预测正确的比例。包括正确预测赢单和正确预测未赢。当前 91.58%。
特征重要性排序(影响赢率最大的因素)
基于 LightGBM 模型的特征重要性(Feature Importance)分析,按权重从高到低排列:
| 排名 | 特征名称 | 重要性权重 | 影响程度 |
|---|---|---|---|
| 🔴 #1 | 签约方式 | 43.9% | |
| 🟠 #2 | 客户预算 | 14.3% | |
| 🟠 #3 | 业务子类型 | 8.9% | |
| 🟡 #4 | 人员规模 | 5.8% | |
| 🟡 #5 | 合同金额(未税) | 2.9% | |
| #6 | 产品线_研发 | 1.4% | |
| #7 | 产品线_供应链 | 1.0% | |
| #8 | 产品线_营销服务 | 0.8% | |
| #9 | 客户行业_汽车制造 | 0.7% | |
| #10 | 项目周期(月) | 0.5% |
校准曲线(Platt Scaling 后)
每个概率分位的实际转化数量与预测转化数量对比,以及分位内样本总量。校准目标:每个分位的平均预测概率应接近实际转化率。
表头说明:
• 预测转化数:校准后概率 ≥ 50%(阈值)的记录数。低分位区间(如 0%-20%)概率都低于 50%,所以预测转化数为 0,这属于正常现象。
• 偏差 = |平均预测概率 - 实际转化率|。偏差小说明模型在该区间校准质量好。
| 概率分位 | 样本总量 | 实际转化数 | 预测转化数 | 实际转化率 | 平均预测概率 | 偏差 |
|---|---|---|---|---|---|---|
| 0%-10% | 1,407 | 59 | 0 | 4.2% | 4.8% | 0.63% |
| 10%-20% | 383 | 52 | 0 | 13.6% | 13.9% | 2.15% |
| 20%-30% | 124 | 45 | 0 | 36.3% | 24.3% | 5.3% |
| 30%-40% | 71 | 33 | 0 | 46.5% | 34.0% | 12.1% |
| 40%-50% | 59 | 42 | 0 | 71.2% | 44.7% | 26.52% |
| 50%-60% | 59 | 30 | 59 | 50.8% | 54.5% | 18.75% |
| 60%-70% | 26 | 17 | 26 | 65.4% | 64.5% | 12.3% |
| 70%-80% | 44 | 20 | 44 | 45.5% | 75.3% | 29.8% |
| 80%-90% | 111 | 87 | 111 | 78.4% | 87.4% | 8.5% |
| 90%-100% | 149 | 140 | 149 | 94.0% | 95.6% | 1.59% |
赢单概率分布(全体)
赢率区间分布
关键洞察
- •超过半数商机(57.5%)集中在低赢率区间(<50%),说明大量商机处于早期阶段或竞争激烈
- •高赢率商机(≥70%)仅 304 条,占比 12.5%,是销售团队应重点跟进的核心标的
- •已签约 525 条中,有 87.4% 来自赢率≥70%的预测区间,验证了模型的预测价值
TOP5 商机责任人(按负责商机数量排名)
全量 2,433 条商机中,共有 519 条商机分配了负责人。以下是负责商机数量最多的5位责任人及其Top3高赢率项目:
未签约商机明细
共 1,908 条未签约商机,按校准后赢率从高到低排列。重点关注高赢率(>70%)的未签约商机。
| 项目名称 | 负责人 | 客户预算(含税)(万元) | 校准后赢率 | 状态 |
|---|---|---|---|---|
| - | *** |
99.9%
|
未签约 | |
| - | *** |
99.3%
|
未签约 | |
| - | *** |
99.3%
|
未签约 | |
| 销售B | *** |
96.0%
|
未签约 | |
| 销售C | *** |
95.3%
|
未签约 | |
| 销售E | *** |
86.0%
|
未签约 |