学习NumPy、Pandas和Matplotlib是数据分析和科学计算的关键步骤。以下是这些库的基础知识及其用法的笔记,旨在帮助你更快地掌握它们。
NumPyNumPy是Python中用于科学计算的基础库,它提供了支持大型、多维数组和矩阵的功能。
1. 安装 NumPy使用pip安装NumPy:
2. 基本用法a. 导入 NumPy
b. 创建数组- arr1 = np.array([1, 2, 3])
复制代码
- arr2 = np.array([[1, 2, 3], [4, 5, 6]])
复制代码
- zeros = np.zeros((2, 3)) # 2行3列的零数组
- ones = np.ones((2, 3)) # 2行3列的单位数组
- full_array = np.full((2, 3), 7) # 2行3列填充7的数组
复制代码
c. 数组操作- arr2.shape # (2, 3)
- arr2.ndim # 2
复制代码
- element = arr2[0, 1] # 第1行第2列的元素
- sliced = arr2[0:2, 1] # 取前2行,第2列
复制代码
d. 数组运算- arr3 = np.array([1, 2, 3])
- arr4 = np.array([4, 5, 6])
- sum_array = arr3 + arr4 # 数组元素相加
复制代码
- mean = np.mean(arr3)
- std_dev = np.std(arr3)
复制代码
PandasPandas是Python中处理数据分析和数据操作的强大工具,主要提供数据结构 Series 和 DataFrame。
1. 安装 Pandas使用pip安装Pandas:
2. 基本用法a. 导入 Pandas
b. 创建数据结构- s = pd.Series([1, 2, 3, 4])
复制代码
- data = {
- 'Column1': [1, 2, 3],
- 'Column2': ['A', 'B', 'C']
- }
- df = pd.DataFrame(data)
复制代码
c. 数据读取- df = pd.read_csv('file.csv') # 读取CSV文件
复制代码
d. 数据探索- df.head() # 查看前5行
- df.info() # 数据框信息
- df.describe() # 描述统计
复制代码
e. 数据选择与过滤- col1 = df['Column1'] # 选择一列
复制代码
- filtered_df = df[df['Column1'] > 1] # 过滤符合条件的行
复制代码
f. 数据操作- df['NewColumn'] = df['Column1'] * 2
复制代码
- df.drop('NewColumn', axis=1, inplace=True)
复制代码
MatplotlibMatplotlib是用于绘制图形和可视化数据的库。
1. 安装 Matplotlib使用pip安装Matplotlib:
2. 基本用法a. 导入 Matplotlib- import matplotlib.pyplot as plt
复制代码
b. 基本绘图- x = [1, 2, 3, 4]
- y = [10, 20, 25, 30]
- plt.plot(x, y)
- plt.title('Simple Plot')
- plt.xlabel('X-axis')
- plt.ylabel('Y-axis')
- plt.show()
复制代码
c. 绘制散点图- plt.scatter(x, y, color='
复制代码
|