项目说明

项目背景

在企业销售管理中,商机赢单概率的准确预测对资源配置和业绩达成至关重要。传统预测依赖销售经理的个人经验,缺乏数据驱动的量化依据。本项目基于真实商机数据,构建了一套商机赢单概率预测系统,通过机器学习模型对历史商机特征进行学习,实现未签约商机的赢率预测与校准,为销售决策提供数据支持。

核心目标

  • 基于历史商机数据预测未签约商机的赢单概率
  • 识别影响赢率的关键特征因素(签约方式、客户预算等)
  • 通过 Platt Scaling 校准模型输出概率,提高预测可靠性
  • 按商机责任人维度输出 Top5 未签约高赢率商机

技术栈

Python 3.11 LightGBM scikit-learn Pandas / NumPy Chart.js Tailwind CSS

数据来源

真实商机数据,共 2,433 条商机记录,涵盖整车、零部件、研发、供应链、营销服务等多个业务线。

主要功能模块

1
算法选择对比
基于 5 折交叉验证,综合 F1、AUC、Precision、Recall 等指标筛选最优模型
2
赢率影响因素
量化签约方式、客户预算、业务子类型、人员规模等 10 维特征对赢单概率的影响权重
3
赢单概率校准与分布
通过 Platt Scaling 校准模型概率,按分位对比实际与预测转化率,确保高分段预测可靠
商机赢单概率预测报告

商机赢单概率预测报告

智能商机预测系统 — 数据驱动商机管理

91.6%

模型准确率

2,433
商机总数
525
已签约
1,908
未签约
389
预测赢单(≥50%)
519
有负责人的商机

算法选择对比与筛选依据

以下为四种候选模型在 2,433 条商机样本上的表现对比(5折交叉验证)。综合评价后选择 LightGBM 作为最终模型。

模型 F1 Score AUC-ROC Precision Recall Accuracy
LightGBM ✓ 已选 80.19% 93.86% 81.37% 79.05% 91.58%
XGBoost 76.56% 93.82% 76.92% 76.19% 89.94%
RandomForest 77.88% 94.25% 78.64% 77.14% 90.55%
LogisticRegression 72.81% 90.98% 70.54% 75.24% 87.89%

选择 LightGBM 的理由:

  • 综合性能最高:LightGBM 在 F1(80.19%)、Precision(81.37%)、Recall(79.05%)、Accuracy(91.58%)四项指标上均排名第一。AUC-ROC 虽略低于 RandomForest(93.86% vs 94.25%),但差距极小。
  • 训练效率优势:LightGBM 基于直方图的算法在大数据集上训练速度比 XGBoost 快 3-5 倍,比 RandomForest 快 10 倍以上,且内存占用更低。
  • 不平衡数据处理:商机数据中已签约与未签约比例为 525:1908(约 1:3.6),存在一定不平衡。LightGBM 内置了处理不平衡样本的机制(scale_pos_weight 参数),无需额外采样。
  • 实际业务要求:Precision 和 Recall 的平衡至关重要——既要尽可能找到高赢率商机(高 Recall),又要避免过多误报影响销售跟进(高 Precision)。LightGBM 的 F1 最高,说明平衡最好。
  • 校准友好:LightGBM 输出的原始概率经过 Platt Scaling 校准后,在高分段(90%-100%)偏差仅 1.59%,适合按阈值筛选高赢率商机。

模型指标说明

关键指标解释(以商机赢率预测为例):

F1 Score(F1分数):精确率和召回率的调和平均数,综合衡量模型性能。值越高说明模型在"找得准"和"找得全"之间平衡越好。当前最佳 80.19%

AUC-ROC(ROC曲线下面积):衡量模型区分"会赢"和"不会赢"两种商机的能力。可以理解为:随机抽一个已签约和一个未签约商机,模型把已签约排在前面的概率。当前 93.86%,区分能力很强。

Precision(精确率):模型预测为"赢单"的商机中,实际真正赢单的比例。例如 Precision 81.37% 意味着模型预测赢单的商机中,约 81% 确实赢了。

Recall(召回率):所有实际赢单的商机中,模型正确识别出的比例。例如 Recall 79.05% 意味着所有已签约商机中,约 79% 被模型正确预测到了。

Accuracy(准确率):模型对所有商机的预测中,预测正确的比例。包括正确预测赢单和正确预测未赢。当前 91.58%

特征重要性排序(影响赢率最大的因素)

基于 LightGBM 模型的特征重要性(Feature Importance)分析,按权重从高到低排列:

排名 特征名称 重要性权重 影响程度
🔴 #1 签约方式 43.9%
🟠 #2 客户预算 14.3%
🟠 #3 业务子类型 8.9%
🟡 #4 人员规模 5.8%
🟡 #5 合同金额(未税) 2.9%
#6 产品线_研发 1.4%
#7 产品线_供应链 1.0%
#8 产品线_营销服务 0.8%
#9 客户行业_汽车制造 0.7%
#10 项目周期(月) 0.5%

校准曲线(Platt Scaling 后)

每个概率分位的实际转化数量与预测转化数量对比,以及分位内样本总量。校准目标:每个分位的平均预测概率应接近实际转化率。

表头说明:
预测转化数:校准后概率 ≥ 50%(阈值)的记录数。低分位区间(如 0%-20%)概率都低于 50%,所以预测转化数为 0,这属于正常现象。
偏差 = |平均预测概率 - 实际转化率|。偏差小说明模型在该区间校准质量好。

概率分位 样本总量 实际转化数 预测转化数 实际转化率 平均预测概率 偏差
0%-10% 1,407 59 0 4.2% 4.8% 0.63%
10%-20% 383 52 0 13.6% 13.9% 2.15%
20%-30% 124 45 0 36.3% 24.3% 5.3%
30%-40% 71 33 0 46.5% 34.0% 12.1%
40%-50% 59 42 0 71.2% 44.7% 26.52%
50%-60% 59 30 59 50.8% 54.5% 18.75%
60%-70% 26 17 26 65.4% 64.5% 12.3%
70%-80% 44 20 44 45.5% 75.3% 29.8%
80%-90% 111 87 111 78.4% 87.4% 8.5%
90%-100% 149 140 149 94.0% 95.6% 1.59%

赢单概率分布(全体)

赢率区间分布

90-100%
149
80-90%
111
70-80%
44
60-70%
26
50-60%
59
40-50%
59
30-40%
71
20-30%
124
10-20%
383
0-10%
1,407
525
已签约 — 21.6%
1,400
低赢率(<50%) — 57.5%
389
预测赢单(≥50%) — 16.0%
119
高赢率(≥70%) — 4.9%

关键洞察

  • 超过半数商机(57.5%)集中在低赢率区间(<50%),说明大量商机处于早期阶段或竞争激烈
  • 高赢率商机(≥70%)仅 304 条,占比 12.5%,是销售团队应重点跟进的核心标的
  • 已签约 525 条中,有 87.4% 来自赢率≥70%的预测区间,验证了模型的预测价值

TOP5 商机责任人(按负责商机数量排名)

全量 2,433 条商机中,共有 519 条商机分配了负责人。以下是负责商机数量最多的5位责任人及其Top3高赢率项目:

销售A
54 项目 · 已赢 14
数据中台建设项目
赢率 48.5% · 未签约
供应链协同平台
赢率 46.1% · 未签约
运维服务外包
赢率 23.4% · 未签约
销售B
35 项目 · 已赢 18
智能制造升级项目
赢率 96.0% · 未签约
信息安全加固
赢率 51.3% · 未签约
云基础设施升级
赢率 42.1% · 未签约
销售C
34 项目 · 已赢 17
物联网平台部署
赢率 95.3% · 未签约
客户管理系统
赢率 28.8% · 未签约
设备维保服务
赢率 22.9% · 未签约
销售D
33 项目 · 已赢 12
大数据分析平台
赢率 56.4% · 未签约
移动办公平台
赢率 26.2% · 未签约
数字化营销平台
赢率 20.4% · 未签约
销售E
31 项目 · 已赢 13
人工智能应用开发
赢率 86.0% · 未签约
电商平台建设
赢率 19.9% · 未签约
系统集成服务
赢率 18.6% · 未签约

未签约商机明细

共 1,908 条未签约商机,按校准后赢率从高到低排列。重点关注高赢率(>70%)的未签约商机。

项目名称 负责人 客户预算(含税)(万元) 校准后赢率 状态
应用系统运维服务 - ***
99.9%
未签约
仓储管理系统 - ***
99.3%
未签约
订单管理平台 - ***
99.3%
未签约
海外通信服务开发 销售B ***
96.0%
未签约
智能制造车间改造 销售C ***
95.3%
未签约
销售管理系统建设 销售E ***
86.0%
未签约