商机赢单概率预测报告 v9

项目说明

项目背景

在企业销售管理中，商机赢单概率的准确预测对资源配置和业绩达成至关重要。传统预测依赖销售经理的个人经验，缺乏数据驱动的量化依据。本项目基于真实商机数据，构建了一套商机赢单概率预测系统，通过机器学习模型对历史商机特征进行学习，实现未签约商机的赢率预测与校准，为销售决策提供数据支持。

核心目标

•基于历史商机数据预测未签约商机的赢单概率
•识别影响赢率的关键特征因素（签约方式、客户预算等）
•通过 Platt Scaling 校准模型输出概率，提高预测可靠性
•按商机责任人维度输出 Top5 未签约高赢率商机

技术栈

Python 3.11 LightGBM scikit-learn Pandas / NumPy Chart.js Tailwind CSS

数据来源

真实商机数据，共 2,433 条商机记录，涵盖整车、零部件、研发、供应链、营销服务等多个业务线。

主要功能模块

算法选择对比
基于 5 折交叉验证，综合 F1、AUC、Precision、Recall 等指标筛选最优模型

赢率影响因素
量化签约方式、客户预算、业务子类型、人员规模等 10 维特征对赢单概率的影响权重

赢单概率校准与分布
通过 Platt Scaling 校准模型概率，按分位对比实际与预测转化率，确保高分段预测可靠

商机赢单概率预测报告

智能商机预测系统 — 数据驱动商机管理

91.6%

模型准确率

2,433

商机总数

525

已签约

1,908

未签约

389

预测赢单(≥50%)

519

有负责人的商机

算法选择对比与筛选依据

以下为四种候选模型在 2,433 条商机样本上的表现对比（5折交叉验证）。综合评价后选择 LightGBM 作为最终模型。

模型	F1 Score	AUC-ROC	Precision	Recall	Accuracy
LightGBM ✓ 已选	80.19%	93.86%	81.37%	79.05%	91.58%
XGBoost	76.56%	93.82%	76.92%	76.19%	89.94%
RandomForest	77.88%	94.25%	78.64%	77.14%	90.55%
LogisticRegression	72.81%	90.98%	70.54%	75.24%	87.89%

选择 LightGBM 的理由：

•综合性能最高：LightGBM 在 F1（80.19%）、Precision（81.37%）、Recall（79.05%）、Accuracy（91.58%）四项指标上均排名第一。AUC-ROC 虽略低于 RandomForest（93.86% vs 94.25%），但差距极小。
•训练效率优势：LightGBM 基于直方图的算法在大数据集上训练速度比 XGBoost 快 3-5 倍，比 RandomForest 快 10 倍以上，且内存占用更低。
•不平衡数据处理：商机数据中已签约与未签约比例为 525:1908（约 1:3.6），存在一定不平衡。LightGBM 内置了处理不平衡样本的机制（scale_pos_weight 参数），无需额外采样。
•实际业务要求：Precision 和 Recall 的平衡至关重要——既要尽可能找到高赢率商机（高 Recall），又要避免过多误报影响销售跟进（高 Precision）。LightGBM 的 F1 最高，说明平衡最好。
•校准友好：LightGBM 输出的原始概率经过 Platt Scaling 校准后，在高分段（90%-100%）偏差仅 1.59%，适合按阈值筛选高赢率商机。

模型指标说明

关键指标解释（以商机赢率预测为例）：

• F1 Score（F1分数）：精确率和召回率的调和平均数，综合衡量模型性能。值越高说明模型在"找得准"和"找得全"之间平衡越好。当前最佳 80.19%。

• AUC-ROC（ROC曲线下面积）：衡量模型区分"会赢"和"不会赢"两种商机的能力。可以理解为：随机抽一个已签约和一个未签约商机，模型把已签约排在前面的概率。当前 93.86%，区分能力很强。

• Precision（精确率）：模型预测为"赢单"的商机中，实际真正赢单的比例。例如 Precision 81.37% 意味着模型预测赢单的商机中，约 81% 确实赢了。

• Recall（召回率）：所有实际赢单的商机中，模型正确识别出的比例。例如 Recall 79.05% 意味着所有已签约商机中，约 79% 被模型正确预测到了。

• Accuracy（准确率）：模型对所有商机的预测中，预测正确的比例。包括正确预测赢单和正确预测未赢。当前 91.58%。

特征重要性排序（影响赢率最大的因素）

基于 LightGBM 模型的特征重要性（Feature Importance）分析，按权重从高到低排列：

排名	特征名称	重要性权重
🔴 #1	签约方式	43.9%
🟠 #2	客户预算	14.3%
🟠 #3	业务子类型	8.9%
🟡 #4	人员规模	5.8%
🟡 #5	合同金额(未税)	2.9%
#6	产品线_研发	1.4%
#7	产品线_供应链	1.0%
#8	产品线_营销服务	0.8%
#9	客户行业_汽车制造	0.7%
#10	项目周期(月)	0.5%

校准曲线（Platt Scaling 后）

每个概率分位的实际转化数量与预测转化数量对比，以及分位内样本总量。校准目标：每个分位的平均预测概率应接近实际转化率。

表头说明：
• 预测转化数：校准后概率 ≥ 50%（阈值）的记录数。低分位区间（如 0%-20%）概率都低于 50%，所以预测转化数为 0，这属于正常现象。
• 偏差 = |平均预测概率 - 实际转化率|。偏差小说明模型在该区间校准质量好。

概率分位	样本总量	实际转化数	预测转化数	实际转化率	平均预测概率	偏差
0%-10%	1,407	59	0	4.2%	4.8%	0.63%
10%-20%	383	52	0	13.6%	13.9%	2.15%
20%-30%	124	45	0	36.3%	24.3%	5.3%
30%-40%	71	33	0	46.5%	34.0%	12.1%
40%-50%	59	42	0	71.2%	44.7%	26.52%
50%-60%	59	30	59	50.8%	54.5%	18.75%
60%-70%	26	17	26	65.4%	64.5%	12.3%
70%-80%	44	20	44	45.5%	75.3%	29.8%
80%-90%	111	87	111	78.4%	87.4%	8.5%
90%-100%	149	140	149	94.0%	95.6%	1.59%

赢单概率分布（全体）

赢率区间分布

90-100%

149

80-90%

111

70-80%

60-70%

50-60%

40-50%

30-40%

20-30%

124

10-20%

383

0-10%

1,407

525

已签约 — 21.6%

1,400

低赢率(<50%) — 57.5%

389

预测赢单(≥50%) — 16.0%

119

高赢率(≥70%) — 4.9%

关键洞察

•超过半数商机（57.5%）集中在低赢率区间（<50%），说明大量商机处于早期阶段或竞争激烈
•高赢率商机（≥70%）仅 304 条，占比 12.5%，是销售团队应重点跟进的核心标的
•已签约 525 条中，有 87.4% 来自赢率≥70%的预测区间，验证了模型的预测价值

TOP5 商机责任人（按负责商机数量排名）

全量 2,433 条商机中，共有 519 条商机分配了负责人。以下是负责商机数量最多的5位责任人及其Top3高赢率项目：

销售A

54 项目 · 已赢 14

数据中台建设项目

赢率 48.5% · 未签约

供应链协同平台

赢率 46.1% · 未签约

运维服务外包

赢率 23.4% · 未签约

销售B

35 项目 · 已赢 18

智能制造升级项目

赢率 96.0% · 未签约

信息安全加固

赢率 51.3% · 未签约

云基础设施升级

赢率 42.1% · 未签约

销售C

34 项目 · 已赢 17

物联网平台部署

赢率 95.3% · 未签约

客户管理系统

赢率 28.8% · 未签约

设备维保服务

赢率 22.9% · 未签约

销售D

33 项目 · 已赢 12

大数据分析平台

赢率 56.4% · 未签约

移动办公平台

赢率 26.2% · 未签约

数字化营销平台

赢率 20.4% · 未签约

销售E

31 项目 · 已赢 13

人工智能应用开发

赢率 86.0% · 未签约

电商平台建设

赢率 19.9% · 未签约

系统集成服务

赢率 18.6% · 未签约

未签约商机明细

共 1,908 条未签约商机，按校准后赢率从高到低排列。重点关注高赢率（>70%）的未签约商机。

项目名称	负责人	客户预算(含税)(万元)	校准后赢率	状态
应用系统运维服务	-	***	99.9%	未签约
仓储管理系统	-	***	99.3%	未签约
订单管理平台	-	***	99.3%	未签约
海外通信服务开发	销售B	***	96.0%	未签约
智能制造车间改造	销售C	***	95.3%	未签约
销售管理系统建设	销售E	***	86.0%	未签约