数据分析技术实战训练营

课程面向人群

零基础学生、职场入门者、数据分析爱好者

课程目标

掌握Python数据分析全流程、独立完成10个商业实战项目

学习路径概览

数据清洗

项目01、10

数据分析

项目02、03、04、06

数据可视化

项目05

机器学习

项目07、08、09

真实商业数据集

使用真实的商业数据集，让学习更贴近实际工作场景

配套学习资料

提供完整的学习资料，包括数据集、代码模板和知识点文档

100%实操驱动

通过10个实战项目，让你在实践中掌握数据分析技能

永久可复用代码模板

提供可复用的代码模板，让你在工作中快速应用

循序渐进的数据分析学习路径

1. 数据清洗阶段

对应项目：项目01、10

学习目标：掌握数据预处理全流程

核心技能点：

缺失值/异常值处理
时间格式化
多源数据合并

2. 数据分析阶段

对应项目：项目02、03、04、06

学习目标：掌握商业数据分析核心方法

核心技能点：

分组聚合
关联规则
客户聚类
A/B测试

3. 数据可视化阶段

对应项目：项目05

学习目标：掌握专业数据可视化方法

核心技能点：

matplotlib绘图
趋势图/分布图制作
可视化解读

4. 机器学习入门阶段

对应项目：项目07、08、09

学习目标：掌握机器学习基础应用

核心技能点：

时间序列预测
特征工程
异常值检测

项目中心

项目01：数据清洗基础

项目02：销售数据分组聚合

项目03：购物篮分析

项目04：客户聚类分析

项目05：销售数据可视化

项目06：A/B测试分析

项目07：时间序列分析

项目08：特征工程

项目09：异常值检测

项目10：多数据集合并

项目01：数据清洗基础

核心任务：处理缺失值、异常值，格式化时间列，计算总价

使用数据：retail_orders.csv

练习

复习

测试

实操任务说明

1. 加载并查看数据集基本信息

2. 处理缺失值和异常值

3. 格式化时间列

4. 计算总价列

代码模板

import pandas as pd

# 加载数据
df = pd.read_csv('retail_orders.csv')

# 查看基本信息
print(df.info())
print(df.head())

# 处理缺失值
df = df.dropna()

# 处理异常值
df = df[df['quantity'] > 0]
df = df[df['unit_price'] > 0]

# 格式化时间列
df['order_date'] = pd.to_datetime(df['order_date'])

# 计算总价
df['total_price'] = df['quantity'] * df['unit_price']

# 保存处理后的数据
df.to_csv('cleaned_orders.csv', index=False)
print('数据清洗完成！')
                        

知识点梳理

数据加载与基本信息查看
缺失值处理方法
异常值检测与处理
时间序列数据处理
派生列计算

易错点总结

处理缺失值时注意保留有效数据
异常值检测需要结合业务逻辑
时间格式化时注意时区问题
计算总价时注意数据类型转换

学习资源

数据集资源

retail_orders.csv

▼

字段含义：

order_id: 订单ID
product_id: 产品ID
quantity: 数量
unit_price: 单价
order_date: 订单日期
customer_id: 客户ID
region: 地区

应用场景：销售数据分析、时间序列分析、地区销售对比

market_basket.csv

▼

字段含义：

transaction_id: 交易ID
product_name: 产品名称
quantity: 数量
price: 价格

应用场景：购物篮分析、关联规则挖掘、产品组合分析

user_logs.csv

▼

字段含义：

user_id: 用户ID
login_time: 登录时间
duration: 停留时长
pages_visited: 访问页面数
purchase: 是否购买

应用场景：用户行为分析、客户聚类、购买预测

ab_test.csv

▼

字段含义：

user_id: 用户ID
group: 实验组/对照组
conversion: 转化率
revenue: 收入

应用场景：A/B测试分析、显著性检验、效果评估

代码模板资源

数据清洗模板

▼

# 数据清洗模板
import pandas as pd

# 加载数据
df = pd.read_csv('data.csv')

# 查看基本信息
print(df.info())
print(df.describe())

# 处理缺失值
df = df.dropna()  # 或 df.fillna(value)

# 处理异常值
df = df[(df['column'] > min_value) & (df['column'] < max_value)]

# 格式化时间列
df['date_column'] = pd.to_datetime(df['date_column'])

# 保存清洗后的数据
df.to_csv('cleaned_data.csv', index=False)
                            

分组聚合模板

▼

# 分组聚合模板
import pandas as pd

# 加载数据
df = pd.read_csv('data.csv')

# 按单个字段分组
result = df.groupby('category').agg({
    'value': ['sum', 'mean', 'count']
}).reset_index()

# 按多个字段分组
result = df.groupby(['category', 'region']).agg({
    'value': 'sum',
    'quantity': 'mean'
}).reset_index()

# 保存结果
result.to_csv('aggregated_data.csv', index=False)
                            

可视化模板

▼

# 可视化模板
import pandas as pd
import matplotlib.pyplot as plt

# 加载数据
df = pd.read_csv('data.csv')

# 设置中文字体
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 趋势图
plt.figure(figsize=(12, 6))
plt.plot(df['date'], df['value'])
plt.title('趋势图')
plt.xlabel('日期')
plt.ylabel('值')
plt.grid(True)
plt.show()

# 分布图
plt.figure(figsize=(10, 6))
plt.hist(df['value'], bins=20)
plt.title('分布图')
plt.xlabel('值')
plt.ylabel('频率')
plt.grid(True)
plt.show()
                            

聚类/预测模板

▼

# 聚类模板
from sklearn.cluster import KMeans
import pandas as pd

# 加载数据
df = pd.read_csv('data.csv')

# 特征选择
features = df[['feature1', 'feature2', 'feature3']]

# K-means聚类
kmeans = KMeans(n_clusters=3, random_state=42)
df['cluster'] = kmeans.fit_predict(features)

# 保存结果
df.to_csv('clustered_data.csv', index=False)

# 时间序列预测模板
from statsmodels.tsa.arima.model import ARIMA
import pandas as pd

# 加载数据
df = pd.read_csv('time_series_data.csv')
df['date'] = pd.to_datetime(df['date'])
df.set_index('date', inplace=True)

# 拟合模型
model = ARIMA(df['value'], order=(1, 1, 1))
model_fit = model.fit()

# 预测
forecast = model_fit.forecast(steps=30)
print(forecast)
                            

知识点文档

数据清洗手册

▼

数据清洗流程

数据收集与加载
数据质量评估
缺失值处理
异常值检测与处理
数据类型转换
数据标准化/归一化
数据验证与保存

常用函数

pd.read_csv() - 加载CSV数据
df.info() - 查看数据信息
df.dropna() - 删除缺失值
df.fillna() - 填充缺失值
pd.to_datetime() - 时间格式化

数据分析手册

▼

数据分析方法

描述性统计分析
分组聚合分析
关联分析
时间序列分析
A/B测试分析

常用函数

df.describe() - 描述性统计
df.groupby() - 分组
df.agg() - 聚合
df.merge() - 数据合并
df.pivot_table() - 透视表

可视化手册

▼

常用图表类型

折线图 - 展示趋势
柱状图 - 比较数据
饼图 - 展示占比
散点图 - 展示相关性
箱线图 - 展示分布

matplotlib基础

plt.figure() - 创建画布
plt.plot() - 绘制折线图
plt.bar() - 绘制柱状图
plt.pie() - 绘制饼图
plt.scatter() - 绘制散点图
plt.title() - 添加标题
plt.xlabel() - 添加x轴标签
plt.ylabel() - 添加y轴标签
plt.show() - 显示图表

机器学习入门手册

▼

机器学习基础

监督学习 vs 无监督学习
特征工程
模型训练与评估
过拟合与欠拟合

常用算法

K-means聚类
线性回归
逻辑回归
决策树
随机森林

scikit-learn基础

from sklearn.model_selection import train_test_split - 数据分割
from sklearn.preprocessing import StandardScaler - 数据标准化
from sklearn.cluster import KMeans - K-means聚类
from sklearn.linear_model import LinearRegression - 线性回归
from sklearn.metrics import accuracy_score - 评估指标

工具推荐

Python

▼

安装教程：

访问Python官网：https://www.python.org/
下载对应版本的安装包
运行安装程序，勾选"Add Python to PATH"
完成安装后，在命令行输入python --version验证

常用库：

pandas - 数据处理
numpy - 数值计算
matplotlib - 数据可视化
scikit-learn - 机器学习
jupyter - 交互式编程

VS Code

▼

安装教程：

访问VS Code官网：https://code.visualstudio.com/
下载对应系统的安装包
运行安装程序完成安装
安装Python扩展：在扩展面板中搜索"Python"并安装

推荐插件：

Python - 提供Python语言支持
Jupyter - 支持Jupyter笔记本
Code Runner - 快速运行代码
GitLens - Git集成

Jupyter Notebook

▼

安装教程：

使用pip安装：pip install jupyter
启动Jupyter：jupyter notebook
在浏览器中打开生成的URL

使用技巧：

使用Shift+Enter运行单元格
使用Ctrl+Enter运行当前单元格
使用Alt+Enter运行并在下方插入新单元格
使用Markdown单元格添加说明文字

常见问题

入门问题

零基础可以学吗？ ▼

可以。本课程专门为零基础学生设计，从基础概念开始，循序渐进地讲解数据分析的各个环节。课程提供了详细的代码模板和练习题，帮助你逐步掌握数据分析技能。

需要什么基础？ ▼

不需要编程基础，但具备基本的计算机操作能力会更好。课程会从Python基础开始讲解，逐步过渡到数据分析的核心技能。

课程需要用到哪些软件？ ▼

课程需要用到以下软件：

Python 3.7+
VS Code 或其他代码编辑器
Jupyter Notebook
pandas、numpy、matplotlib、scikit-learn等Python库

学习问题

课程进度跟不上怎么办？ ▼

课程内容可以反复观看和练习，建议按照自己的节奏学习。如果遇到困难，可以参考学习资源中的知识点文档，或者咨询老师获取帮助。

代码运行报错怎么解决？ ▼

代码报错是学习过程中的正常现象，建议：

仔细查看错误信息，理解错误原因
检查代码拼写和语法
参考代码模板中的正确写法
如果仍然无法解决，可以咨询老师

项目问题

项目数据集怎么获取？ ▼

课程提供了所有项目所需的数据集，你可以在学习资源页面找到数据集的详细说明和下载链接。

项目代码可以复用吗？ ▼

是的，课程提供的代码模板可以在实际工作中复用。你可以根据具体的业务场景进行适当的修改和调整。

后续问题

学完可以做什么？ ▼

学完本课程后，你可以：

在简历中添加数据分析技能
申请数据分析相关的工作
在现有工作中应用数据分析技能
继续深入学习更高级的数据分析技术

有没有进阶学习路径推荐？ ▼

进阶学习路径推荐：

深入学习机器学习算法
学习深度学习在数据分析中的应用
掌握大数据处理技术（如Hadoop、Spark）
学习数据可视化工具（如Tableau、Power BI）
参与 Kaggle 等数据科学竞赛

从数据清洗到机器学习，10个实战项目带你掌握数据分析核心技能

课程面向人群

课程目标

学习路径概览

数据清洗

数据分析

数据可视化

机器学习

真实商业数据集

配套学习资料

100%实操驱动

永久可复用代码模板

循序渐进的数据分析学习路径

1. 数据清洗阶段

对应项目：项目01、10

学习目标：掌握数据预处理全流程

核心技能点：

2. 数据分析阶段

对应项目：项目02、03、04、06

学习目标：掌握商业数据分析核心方法

核心技能点：

3. 数据可视化阶段

对应项目：项目05

学习目标：掌握专业数据可视化方法

核心技能点：

4. 机器学习入门阶段

对应项目：项目07、08、09

学习目标：掌握机器学习基础应用

核心技能点：

项目中心

项目01：数据清洗基础

实操任务说明

代码模板

知识点梳理

易错点总结

学习资源

数据集资源

retail_orders.csv

market_basket.csv

user_logs.csv

ab_test.csv

代码模板资源

数据清洗模板

分组聚合模板

可视化模板

聚类/预测模板

知识点文档

数据清洗手册

数据清洗流程

常用函数

数据分析手册

数据分析方法

常用函数

可视化手册

常用图表类型

matplotlib基础

机器学习入门手册

机器学习基础

常用算法

scikit-learn基础

工具推荐

Python

VS Code

Jupyter Notebook

常见问题

入门问题

学习问题

项目问题

后续问题

咨询老师