为了账号安全,请及时绑定邮箱和手机立即绑定

Jupyter Notebook 实战:新手入门教程

概述

本文介绍了Jupyter Notebook的安装方法、创建和打开新的Notebook文件以及基本操作,帮助读者快速上手并进行notebook实战。文章详细讲解了从基础操作到数据可视化和项目实践的全过程,适合新手入门学习。

Jupyter Notebook 基本概念

Jupyter Notebook 是一个开源的 Web 应用程序,允许用户创建和共享包含实时代码、公式、可视化和解释性文本的文档。它支持多种编程语言,但最常用的是 Python。Jupyter Notebook 为用户提供了交互式的编程环境,非常适合数据科学、机器学习和教学场景。

Jupyter Notebook 安装方法
  1. 安装 Anaconda 或 Miniconda

    Anaconda 是一个包含了 Python 和 R 语言大量包的大数据处理套件,而 Miniconda 是 Anaconda 的压缩版本,仅包含了 Python 和 conda,方便用户根据需要自行安装其他库。推荐使用 Anaconda,因为它已经预先配置了 Jupyter Notebook。

    # 下载并安装 Anaconda
    wget https://repo.anaconda.com/archive/Anaconda3-2021.11-Linux-x86_64.sh
    bash Anaconda3-2021.11-Linux-x86_64.sh
  2. 安装独立的 Jupyter Notebook

    如果不使用 Anaconda,也可以通过 pip 或 conda 单独安装 Jupyter Notebook。

    # 使用 pip 安装
    pip install notebook
    
    # 使用 conda 安装
    conda install notebook
创建和打开新的 Noteboook 文件

创建新的 Jupyter Notebook 文件的方法如下:

  1. 通过命令行创建

    在终端中输入以下命令:

    jupyter notebook

    这将启动 Jupyter Notebook 服务器,并在默认浏览器中打开 http://localhost:8888

  2. 通过浏览器创建

    在 Jupyter Notebook 界面的左侧导航栏中,点击 New 按钮,选择 Python 3 即可创建一个新的 Notebook 文件。

Jupyter Notebook 基本操作

细胞(Cell)的创建和编辑

每个 Jupyter Notebook 文件由多个细胞组成。每个细胞可以包含代码、文本、公式等。创建新的细胞的方法如下:

  1. 创建新的代码单元格

    • 单击当前单元格下方的空格。
    • 选择菜单栏中的 Insert -> Insert Cell Below
    • 在当前单元格上方的空格点击,选择 Insert -> Insert Cell Above
  2. 创建新的 Markdown 单元格

    • 选择 Insert -> Insert Markdown Cell BelowInsert -> Insert Markdown Cell Above

运行代码单元格

运行代码单元格的方法如下:

  1. 点击运行按钮

    在 Jupyter Notebook 的工具栏中,点击 Run 按钮。

  2. 使用快捷键

    可以使用快捷键 Shift + Enter 来运行当前单元格并跳转到下一个单元格。

如何注释和取消注释代码

Python 代码中的注释使用 # 符号。可以使用 # 来注释一行代码,或者添加多行注释。

# 这是一行注释
print("Hello, world!")

# 多行注释
"""
这是一个多行注释
可以包含多行文本
"""
print("Hello, world!")

要取消注释,只需删除注释符号 #

使用 Markdown 单元格写明注释和文档

Markdown 是一种轻量级标记语言,可用于编写结构化的文本。在 Jupyter Notebook 中,可以通过 Markdown 单元格来编写文档或者注释。

# 标题
## 次级标题
### 三级标题

这是普通文本。
这是**加粗**文本。
这是*斜体*文本。
这是`代码`文本。

- 列表项1
- 列表项2
  - 子列表项1
  - 子列表项2

[链接文本](https://www.example.com)

| 列 | 列 | 列 |
| --- | --- | --- |
| 单元格1 | 单元格2 | 单元格3 |
| 单元格4 | 单元格5 | 单元格6 |
常用快捷键

快速运行代码单元格

  • Shift + Enter:运行当前单元格并跳转到下一个单元格。
  • Ctrl + Enter:运行当前单元格并在原地保持。

快速添加新细胞

  • Shift + M:合并选中的单元格。
  • B:在当前单元格下方添加新单元格。
  • A:在当前单元格上方添加新单元格。

快速切换细胞类型

  • M:将单元格切换到 Markdown 类型。
  • Y:将单元格切换到代码类型。

如何保存 Notebook

  • Ctrl + S:保存当前 Notebook。
  • File -> Save and Checkpoint:保存并创建新的检查点。
常见数据类型和操作

Python 基本数据类型

Python 的基本数据类型包括整型、浮点型和字符串等。

# 整型
a = 10
print(type(a))

# 浮点型
b = 10.0
print(type(b))

# 字符串
c = "Hello, world!"
print(type(c))

数组和列表的基础操作

Python 中的列表是可变的序列,数组则通过 NumPy 库实现。下面是一些基本操作示例。

# 创建列表
list1 = [1, 2, 3, 4, 5]
print(list1)

# 列表切片
list2 = list1[1:3]
print(list2)

# 列表添加元素
list1.append(6)
print(list1)

# 创建数组
import numpy as np

array1 = np.array([1, 2, 3, 4, 5])
print(array1)

# 数组切片
array2 = array1[1:3]
print(array2)

# 数组添加元素
array1 = np.append(array1, 6)
print(array1)

Pandas 库的基础使用

Pandas 是 Python 中一个非常流行的库,用于数据分析和数据操作。

# 导入 Pandas
import pandas as pd

# 创建一个 DataFrame
data = {
    'Name': ['Alice', 'Bob', 'Charlie'],
    'Age': [24, 27, 23],
    'City': ['Beijing', 'Shanghai', 'Guangzhou']
}
df = pd.DataFrame(data)
print(df)

# 选择列
print(df['Name'])

# 选择行
print(df.iloc[0])

# 去掉重复行
df.drop_duplicates(inplace=True)
print(df)

如何导入和导出数据

Pandas 提供了多种方法来导入和导出数据。

# 从 CSV 文件导入数据
df_csv = pd.read_csv('data.csv')
print(df_csv)

# 从 Excel 文件导入数据
df_excel = pd.read_excel('data.xlsx')
print(df_excel)

# 导出数据到 CSV 文件
df.to_csv('output.csv', index=False)

# 导出数据到 Excel 文件
df.to_excel('output.xlsx', index=False)
数据可视化入门

Matplotlib 的基础使用

Matplotlib 是一个 Python 的 2D 图形库,可以生成出版质量级别的图像。

import matplotlib.pyplot as plt

# 创建一个简单的折线图
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

plt.plot(x, y)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Simple Line Chart')
plt.show()

Seaborn 库的基础操作

Seaborn 是基于 Matplotlib 的统计图形库,可以生成更为美观的统计图表。

import seaborn as sns

# 创建一个简单的柱状图
data = [1, 2, 2, 3, 3, 3, 4, 4, 4, 4]
sns.countplot(data)
plt.title('Simple Bar Chart')
plt.show()

如何在 Notebook 中展示图表

在 Jupyter Notebook 中展示图表的方法如下:

import matplotlib.pyplot as plt

# 生成一个简单的折线图
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]

plt.plot(x, y)
plt.xlabel('X Axis Label')
plt.ylabel('Y Axis Label')
plt.title('Simple Line Chart in Notebook')
plt.show()

常见图表类型

  • 折线图
  • 柱状图
  • 散点图
import matplotlib.pyplot as plt

# 折线图
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])
plt.show()

# 柱状图
y = [3, 1, 2, 4, 5]
plt.bar(range(len(y)), y)
plt.show()

# 散点图
x = [1, 2, 3, 4, 5]
y = [2, 3, 5, 7, 11]
plt.scatter(x, y)
plt.show()
项目实践

一个简单的数据分析项目案例

以下是一个简单的数据分析项目案例,包括数据导入、数据清洗、数据分析和可视化。

# 导入库
import pandas as pd
import matplotlib.pyplot as plt

# 导入数据
data = pd.read_csv('data.csv')

# 数据清洗
data.dropna(inplace=True)  # 删除缺失值

# 数据分析
mean_age = data['Age'].mean()
print(f'Mean Age: {mean_age}')

# 数据可视化
plt.hist(data['Age'])
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Age Distribution')
plt.show()

练习任务和解答

  1. 任务

    导入一个包含销售数据的 CSV 文件,并绘制一个柱状图来表示不同区域的销售总额。

  2. 解答

    import pandas as pd
    import matplotlib.pyplot as plt
    
    # 导入数据
    data = pd.read_csv('sales_data.csv')
    
    # 数据清洗
    data.dropna(inplace=True)
    
    # 数据分析
    total_sales_by_region = data.groupby('Region')['Sales'].sum()
    
    # 数据可视化
    total_sales_by_region.plot(kind='bar', color='skyblue')
    plt.xlabel('Region')
    plt.ylabel('Total Sales')
    plt.title('Total Sales by Region')
    plt.show()

如何组织和管理 Notebook 中的代码和项目文件

  1. 创建一个新的 Notebook

    在 Jupyter Notebook 中创建一个新的 Notebook 文件,命名为 Project.ipynb

  2. 导入项目文件

    在 Notebook 中导入所需的项目文件,如 CSV 文件、Excel 文件等。

  3. 划分 Notebook 模块

    将 Notebook 划分为多个模块,每个模块负责一个功能,如数据导入、数据清洗、数据分析和数据可视化。

# 数据导入模块
import pandas as pd

data = pd.read_csv('data.csv')
print(data.head())
# 数据清洗模块
data.dropna(inplace=True)
print(data.head())
# 数据分析模块
mean_age = data['Age'].mean()
print(f'Mean Age: {mean_age}')
# 数据可视化模块
import matplotlib.pyplot as plt

plt.hist(data['Age'])
plt.xlabel('Age')
plt.ylabel('Frequency')
plt.title('Age Distribution')
plt.show()
  1. 保存和导出结果

    将最终的分析结果导出为 CSV 或 Excel 文件,或者保存为图像文件。


# 导出分析结果
data.to_csv('analyzed_data.csv', index=False)

# 导出图表
plt.savefig('age_distribution.png')
``

通过以上步骤,可以有效地组织和管理 Jupyter Notebook 中的代码和项目文件,使项目更加清晰和易于维护。
点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 评论
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消