课程面向人群

零基础学生、职场入门者、数据分析爱好者

课程目标

掌握Python数据分析全流程、独立完成10个商业实战项目

学习路径概览

数据清洗

项目01、10

数据分析

项目02、03、04、06

数据可视化

项目05

机器学习

项目07、08、09

真实商业数据集

使用真实的商业数据集,让学习更贴近实际工作场景

配套学习资料

提供完整的学习资料,包括数据集、代码模板和知识点文档

100%实操驱动

通过10个实战项目,让你在实践中掌握数据分析技能

永久可复用代码模板

提供可复用的代码模板,让你在工作中快速应用

循序渐进的数据分析学习路径

1. 数据清洗阶段

对应项目:项目01、10

学习目标:掌握数据预处理全流程

核心技能点:

  • 缺失值/异常值处理
  • 时间格式化
  • 多源数据合并

2. 数据分析阶段

对应项目:项目02、03、04、06

学习目标:掌握商业数据分析核心方法

核心技能点:

  • 分组聚合
  • 关联规则
  • 客户聚类
  • A/B测试

3. 数据可视化阶段

对应项目:项目05

学习目标:掌握专业数据可视化方法

核心技能点:

  • matplotlib绘图
  • 趋势图/分布图制作
  • 可视化解读

4. 机器学习入门阶段

对应项目:项目07、08、09

学习目标:掌握机器学习基础应用

核心技能点:

  • 时间序列预测
  • 特征工程
  • 异常值检测

项目中心

项目01:数据清洗基础
项目02:销售数据分组聚合
项目03:购物篮分析
项目04:客户聚类分析
项目05:销售数据可视化
项目06:A/B测试分析
项目07:时间序列分析
项目08:特征工程
项目09:异常值检测
项目10:多数据集合并

项目01:数据清洗基础

核心任务:处理缺失值、异常值,格式化时间列,计算总价

使用数据:retail_orders.csv

练习
复习
测试

实操任务说明

1. 加载并查看数据集基本信息

2. 处理缺失值和异常值

3. 格式化时间列

4. 计算总价列

代码模板

import pandas as pd # 加载数据 df = pd.read_csv('retail_orders.csv') # 查看基本信息 print(df.info()) print(df.head()) # 处理缺失值 df = df.dropna() # 处理异常值 df = df[df['quantity'] > 0] df = df[df['unit_price'] > 0] # 格式化时间列 df['order_date'] = pd.to_datetime(df['order_date']) # 计算总价 df['total_price'] = df['quantity'] * df['unit_price'] # 保存处理后的数据 df.to_csv('cleaned_orders.csv', index=False) print('数据清洗完成!')

知识点梳理

  • 数据加载与基本信息查看
  • 缺失值处理方法
  • 异常值检测与处理
  • 时间序列数据处理
  • 派生列计算

易错点总结

  • 处理缺失值时注意保留有效数据
  • 异常值检测需要结合业务逻辑
  • 时间格式化时注意时区问题
  • 计算总价时注意数据类型转换

学习资源

数据集资源

retail_orders.csv

字段含义:

  • order_id: 订单ID
  • product_id: 产品ID
  • quantity: 数量
  • unit_price: 单价
  • order_date: 订单日期
  • customer_id: 客户ID
  • region: 地区

应用场景:销售数据分析、时间序列分析、地区销售对比

market_basket.csv

字段含义:

  • transaction_id: 交易ID
  • product_name: 产品名称
  • quantity: 数量
  • price: 价格

应用场景:购物篮分析、关联规则挖掘、产品组合分析

user_logs.csv

字段含义:

  • user_id: 用户ID
  • login_time: 登录时间
  • duration: 停留时长
  • pages_visited: 访问页面数
  • purchase: 是否购买

应用场景:用户行为分析、客户聚类、购买预测

ab_test.csv

字段含义:

  • user_id: 用户ID
  • group: 实验组/对照组
  • conversion: 转化率
  • revenue: 收入

应用场景:A/B测试分析、显著性检验、效果评估

代码模板资源

数据清洗模板

# 数据清洗模板 import pandas as pd # 加载数据 df = pd.read_csv('data.csv') # 查看基本信息 print(df.info()) print(df.describe()) # 处理缺失值 df = df.dropna() # 或 df.fillna(value) # 处理异常值 df = df[(df['column'] > min_value) & (df['column'] < max_value)] # 格式化时间列 df['date_column'] = pd.to_datetime(df['date_column']) # 保存清洗后的数据 df.to_csv('cleaned_data.csv', index=False)

分组聚合模板

# 分组聚合模板 import pandas as pd # 加载数据 df = pd.read_csv('data.csv') # 按单个字段分组 result = df.groupby('category').agg({ 'value': ['sum', 'mean', 'count'] }).reset_index() # 按多个字段分组 result = df.groupby(['category', 'region']).agg({ 'value': 'sum', 'quantity': 'mean' }).reset_index() # 保存结果 result.to_csv('aggregated_data.csv', index=False)

可视化模板

# 可视化模板 import pandas as pd import matplotlib.pyplot as plt # 加载数据 df = pd.read_csv('data.csv') # 设置中文字体 plt.rcParams['font.sans-serif'] = ['SimHei'] plt.rcParams['axes.unicode_minus'] = False # 趋势图 plt.figure(figsize=(12, 6)) plt.plot(df['date'], df['value']) plt.title('趋势图') plt.xlabel('日期') plt.ylabel('值') plt.grid(True) plt.show() # 分布图 plt.figure(figsize=(10, 6)) plt.hist(df['value'], bins=20) plt.title('分布图') plt.xlabel('值') plt.ylabel('频率') plt.grid(True) plt.show()

聚类/预测模板

# 聚类模板 from sklearn.cluster import KMeans import pandas as pd # 加载数据 df = pd.read_csv('data.csv') # 特征选择 features = df[['feature1', 'feature2', 'feature3']] # K-means聚类 kmeans = KMeans(n_clusters=3, random_state=42) df['cluster'] = kmeans.fit_predict(features) # 保存结果 df.to_csv('clustered_data.csv', index=False) # 时间序列预测模板 from statsmodels.tsa.arima.model import ARIMA import pandas as pd # 加载数据 df = pd.read_csv('time_series_data.csv') df['date'] = pd.to_datetime(df['date']) df.set_index('date', inplace=True) # 拟合模型 model = ARIMA(df['value'], order=(1, 1, 1)) model_fit = model.fit() # 预测 forecast = model_fit.forecast(steps=30) print(forecast)

知识点文档

数据清洗手册

数据清洗流程

  1. 数据收集与加载
  2. 数据质量评估
  3. 缺失值处理
  4. 异常值检测与处理
  5. 数据类型转换
  6. 数据标准化/归一化
  7. 数据验证与保存

常用函数

  • pd.read_csv() - 加载CSV数据
  • df.info() - 查看数据信息
  • df.dropna() - 删除缺失值
  • df.fillna() - 填充缺失值
  • pd.to_datetime() - 时间格式化

数据分析手册

数据分析方法

  • 描述性统计分析
  • 分组聚合分析
  • 关联分析
  • 时间序列分析
  • A/B测试分析

常用函数

  • df.describe() - 描述性统计
  • df.groupby() - 分组
  • df.agg() - 聚合
  • df.merge() - 数据合并
  • df.pivot_table() - 透视表

可视化手册

常用图表类型

  • 折线图 - 展示趋势
  • 柱状图 - 比较数据
  • 饼图 - 展示占比
  • 散点图 - 展示相关性
  • 箱线图 - 展示分布

matplotlib基础

  • plt.figure() - 创建画布
  • plt.plot() - 绘制折线图
  • plt.bar() - 绘制柱状图
  • plt.pie() - 绘制饼图
  • plt.scatter() - 绘制散点图
  • plt.title() - 添加标题
  • plt.xlabel() - 添加x轴标签
  • plt.ylabel() - 添加y轴标签
  • plt.show() - 显示图表

机器学习入门手册

机器学习基础

  • 监督学习 vs 无监督学习
  • 特征工程
  • 模型训练与评估
  • 过拟合与欠拟合

常用算法

  • K-means聚类
  • 线性回归
  • 逻辑回归
  • 决策树
  • 随机森林

scikit-learn基础

  • from sklearn.model_selection import train_test_split - 数据分割
  • from sklearn.preprocessing import StandardScaler - 数据标准化
  • from sklearn.cluster import KMeans - K-means聚类
  • from sklearn.linear_model import LinearRegression - 线性回归
  • from sklearn.metrics import accuracy_score - 评估指标

工具推荐

Python

安装教程:

  1. 访问Python官网:https://www.python.org/
  2. 下载对应版本的安装包
  3. 运行安装程序,勾选"Add Python to PATH"
  4. 完成安装后,在命令行输入python --version验证

常用库:

  • pandas - 数据处理
  • numpy - 数值计算
  • matplotlib - 数据可视化
  • scikit-learn - 机器学习
  • jupyter - 交互式编程

VS Code

安装教程:

  1. 访问VS Code官网:https://code.visualstudio.com/
  2. 下载对应系统的安装包
  3. 运行安装程序完成安装
  4. 安装Python扩展:在扩展面板中搜索"Python"并安装

推荐插件:

  • Python - 提供Python语言支持
  • Jupyter - 支持Jupyter笔记本
  • Code Runner - 快速运行代码
  • GitLens - Git集成

Jupyter Notebook

安装教程:

  1. 使用pip安装:pip install jupyter
  2. 启动Jupyter:jupyter notebook
  3. 在浏览器中打开生成的URL

使用技巧:

  • 使用Shift+Enter运行单元格
  • 使用Ctrl+Enter运行当前单元格
  • 使用Alt+Enter运行并在下方插入新单元格
  • 使用Markdown单元格添加说明文字

常见问题

入门问题

零基础可以学吗?

可以。本课程专门为零基础学生设计,从基础概念开始,循序渐进地讲解数据分析的各个环节。课程提供了详细的代码模板和练习题,帮助你逐步掌握数据分析技能。

需要什么基础?

不需要编程基础,但具备基本的计算机操作能力会更好。课程会从Python基础开始讲解,逐步过渡到数据分析的核心技能。

课程需要用到哪些软件?

课程需要用到以下软件:

  • Python 3.7+
  • VS Code 或其他代码编辑器
  • Jupyter Notebook
  • pandas、numpy、matplotlib、scikit-learn等Python库

学习问题

课程进度跟不上怎么办?

课程内容可以反复观看和练习,建议按照自己的节奏学习。如果遇到困难,可以参考学习资源中的知识点文档,或者咨询老师获取帮助。

代码运行报错怎么解决?

代码报错是学习过程中的正常现象,建议:

  • 仔细查看错误信息,理解错误原因
  • 检查代码拼写和语法
  • 参考代码模板中的正确写法
  • 如果仍然无法解决,可以咨询老师

项目问题

项目数据集怎么获取?

课程提供了所有项目所需的数据集,你可以在学习资源页面找到数据集的详细说明和下载链接。

项目代码可以复用吗?

是的,课程提供的代码模板可以在实际工作中复用。你可以根据具体的业务场景进行适当的修改和调整。

后续问题

学完可以做什么?

学完本课程后,你可以:

  • 在简历中添加数据分析技能
  • 申请数据分析相关的工作
  • 在现有工作中应用数据分析技能
  • 继续深入学习更高级的数据分析技术
有没有进阶学习路径推荐?

进阶学习路径推荐:

  • 深入学习机器学习算法
  • 学习深度学习在数据分析中的应用
  • 掌握大数据处理技术(如Hadoop、Spark)
  • 学习数据可视化工具(如Tableau、Power BI)
  • 参与 Kaggle 等数据科学竞赛