从等数到自助分析
我把数分经验
变成了 AI 能调用的工作流
以前一个想看的数据,要提需求、排期、等交付。现在我把转转的表、口径、踩坑经验沉淀成 skill,日常 SQL 基本都用它完成,半小时以内就能拿到想看的数据。
01 痛点
业务同学最缺的,不是问题,而是验证问题的入口
增长运营每天都有很多小假设:谁在看回收首页,哪个品类被估价,触达后有没有回来。这些问题未必大到值得单独占用数分排期,但它们决定了下一步动作。
更麻烦的是,SQL 不只是写语法。真正容易错的是表名、时间口径、过滤条件、跨表去重和实验包排除。
01
提需求
写清楚场景和想看的指标
等待
02
讲价值
先证明这个数值得被看
对齐
03
排期交付
几天到一周后拿到结果
几天
04
返工校验
口径不一致时重新沟通
再等
02 效果先说
它已经稳定进入我的日常工作流
这个 skill 我已经持续打磨了 1 个月,目前用它写了 50 多个 SQL,日常的 SQL 基本都由它完成。现在通常 5 分钟写出可跑 SQL,跑数据 20 分钟以内,半小时内就能拿到自己想要的数据。720+ 流失用户短信召回复盘,是其中一个完整项目案例。
5 分钟
写出 SQL
从自然语言需求到符合转转口径的可跑 SQL。
20 分钟
跑完数据
多数日常分析在 Hive 跑数 20 分钟以内完成。
30 分钟
拿到结果
从想到问题到看到数据,基本控制在半小时内。
50+
SQL 已生成
不是一次性 Demo,而是已经覆盖日常真实分析需求。
450 行
项目级 SQL
720+ 流失用户 DMP 分析覆盖漏斗、品类分布、人群分层。
4 张
结果 sheet
大盘漏斗、大盘品类、未触达漏斗、未触达品类。
9 个
人群分层
按 DMP 人群包做细分,支撑召回复盘。
3 个坑
自动避开
桥表去重、实验包排除、短信全量表 dt 取最新分区。
03 现场演示
从一句话,到能跑的 SQL,再到可用的业务判断
演示问题不需要复杂,关键是让大家看到:普通 AI 只能生成“像 SQL 的 SQL”,加载 skill 后,AI 才知道转转真实表名和业务口径。
自然语言需求
昨天看过回收首页的用户里,有多少男性用户估价了组装机?
后续补一句真实结论:拿到这个数后,我发现 ______,于是推动了 ______。
截图 01
AI神笔生成 SQL
标出三表 JOIN、真实表名、性别标签、组装机品类 ID。
截图 02
Hive 跑出结果
证明 SQL 不是演示稿,是真实可跑、可拿数。
截图 03
结果带来的动作
补真实业务判断:人群、品类、触达或页面策略调整。
录屏 01
2 分钟加速演示
一句话 → 读 skill → 生成 SQL → Hive 出结果。
04 对比
有 skill 和没 skill,差别不是快慢,是结果能不能信
AI 本来就会写 SQL,但它不知道转转。它不知道哪些表是真实的,哪些字段要双重过滤,哪些订单要排除,哪些 join 会把 GMV 算重。
skill 的价值,是把这些隐性经验变成 AI 每次必须读取的约束。
普通 AI
- 表名可能是编的
- 时间只按 dt 过滤
- 忘记排除内部订单
- 品类分布简单 join,GMV 容易重复
- 看起来像对的,但跑出来可能错
AI神笔 + skill
- 读取 13 张真实核心表
- 自动使用 dt + 业务时间字段
- 自动检查 order_source 等污染数据
- 品类分析默认桥表写法
- 能跑、可校验、可复用
05 原理压缩讲
SQL 只是表层,底下是被固化的分析工作流
这里不展开成说明书,只讲评委需要理解的一件事:我不是让 AI 临场猜答案,而是给 AI 一套固定工作流,让它先读规则、再选模板、再生成 SQL、最后自检。
01
读入口
从 SKILL.md 进入,先过启动核查清单和硬性规则。
02
找口径
读取 tables、metrics、conventions,拿到真实表名和过滤方式。
03
套场景
按触达、实验、人群、画像等场景选择模板和通用骨架。
04
沉淀回流
每次踩坑、校验和新案例,都继续补进 skill。
zz-sql-analyst/
├── SKILL.md # 入口:核查清单 + 场景路由 + 硬性规则
├── references/ # 13 张表、口径定义、写法约定
├── templates/ # 9 个高频分析场景
├── patterns/ # 桥表、漏斗、去重、标签透视等通用骨架
└── examples/ # 跑过的真实项目案例
├── SKILL.md # 入口:核查清单 + 场景路由 + 硬性规则
├── references/ # 13 张表、口径定义、写法约定
├── templates/ # 9 个高频分析场景
├── patterns/ # 桥表、漏斗、去重、标签透视等通用骨架
└── examples/ # 跑过的真实项目案例
06 价值
这件事的价值,不是多写了几条 SQL,而是把数据验证变成了随手能做的事
对我自己
想看就能先看
过去很多小猜想会停在备忘录里,因为不确定值不值得提需求。现在我可以先用 30 分钟拿到方向性数据,再决定要不要继续深挖。
对数分协作
把低价值排队变少
简单取数和初步验证我先自己完成,找数分时带着结果和更清楚的问题去沟通。数分资源可以更多花在复杂口径、实验设计和结论校准上。
对团队沉淀
经验不再只在某个人脑子里
真实表名、标准口径、桥表去重、实验包排除、踩过的坑,都能沉淀进 skill。下一个同学不是从零开始,而是站在已经验证过的路径上继续做。
07 收尾
让数据分析能力
从排期资源
变成即时能力
从排期资源
变成即时能力
这套方法不限于回收业务。任何有稳定表、固定口径、重复分析场景的团队,都可以按同样方式复制。
识别
找出每周、每月都在重复写的分析场景。
沉淀
把真实表名、指标口径、踩坑经验写成 AI 能读的文件。
复用
让 AI 每次按同一套工作流生成、校验、交付。
迭代
每做完一个新场景,就把新口径和新坑继续补进去。