用Python可视化理解多元函数：梯度下降、切平面与极值（附Matplotlib代码）-港品优选

用Python可视化理解多元函数：梯度下降、切平面与极值（附Matplotlib代码）

数学概念的可视化是理解抽象理论的有力工具。对于正在学习机器学习或数据科学的开发者而言，多元函数的几何意义、梯度下降原理以及极值分析往往是必须掌握但又容易困惑的知识点。本文将带领读者通过Python代码，将这些抽象概念转化为直观的3D图形和动态演示，让数学"活"起来。

我们将使用NumPy进行数值计算，Matplotlib进行可视化，逐步构建以下内容：

二元函数的3D曲面图与等高线图
梯度向量场的动态绘制
梯度下降算法的迭代过程可视化
空间曲线的切线及曲面的切平面绘制

1. 环境准备与基础可视化

1.1 安装必要库

确保已安装以下Python库，这些是本文所有可视化的基础：

pip install numpy matplotlib

1.2 绘制二元函数基础图形

让我们从一个简单的二元函数开始：f(x,y) = x² + y²。这个抛物面是理解多元函数几何性质的最佳起点。

import numpy as np import matplotlib.pyplot as plt from mpl_toolkits.mplot3d import Axes3D # 定义函数 def f(x, y): return x**2 + y**2 # 生成网格数据 x = np.linspace(-5, 5, 100) y = np.linspace(-5, 5, 100) X, Y = np.meshgrid(x, y) Z = f(X, Y) # 创建3D图形 fig = plt.figure(figsize=(12, 6)) ax1 = fig.add_subplot(121, projection='3d') ax1.plot_surface(X, Y, Z, cmap='viridis') ax1.set_title('3D曲面图') # 添加等高线图 ax2 = fig.add_subplot(122) contour = ax2.contour(X, Y, Z, 20, cmap='RdYlBu') plt.colorbar(contour) ax2.set_title('等高线图') plt.tight_layout() plt.show()

这段代码会同时展示3D曲面和对应的等高线图。观察图形可以帮助我们直观理解：

函数在(0,0)处取得最小值
等高线图展示了函数值相同的点构成的曲线
3D曲面则完整呈现了函数的空间形状

2. 梯度与方向导数的可视化

2.1 计算梯度向量

梯度是多元函数最重要的概念之一，它指向函数增长最快的方向。对于f(x,y) = x² + y²，梯度为∇f = [2x, 2y]。

def gradient(x, y): return np.array([2*x, 2*y]) # 在网格点上计算梯度 U, V = gradient(X, Y)

2.2 绘制梯度场

梯度场展示了函数在每个点的变化趋势：

plt.figure(figsize=(8, 6)) plt.contour(X, Y, Z, 20, colors='black', alpha=0.5) plt.quiver(X[::5, ::5], Y[::5, ::5], U[::5, ::5], V[::5, ::5], scale=40, color='blue', alpha=0.7) plt.title('梯度向量场与等高线') plt.xlabel('x') plt.ylabel('y') plt.show()

从图中可以观察到：

梯度向量总是垂直于等高线
向量长度表示变化率大小
所有向量都指向远离原点的方向，因为原点是最小值点

2.3 方向导数的交互演示

方向导数表示函数在特定方向的变化率。我们可以创建一个交互式演示：

from ipywidgets import interact @interact(theta=(0, 2*np.pi, 0.1)) def show_directional_derivative(theta=0): point = np.array([1, 1]) grad = gradient(*point) direction = np.array([np.cos(theta), np.sin(theta)]) dd = grad @ direction # 方向导数 plt.figure(figsize=(6, 6)) plt.contour(X, Y, Z, 20, colors='black', alpha=0.3) plt.quiver(*point, *grad, color='red', scale=30, label='梯度') plt.quiver(*point, *direction, color='blue', scale=10, label='方向') plt.scatter(*point, color='red', s=50) plt.title(f'方向导数: {dd:.2f} (θ={np.degrees(theta):.0f}°)') plt.legend() plt.xlim(-2, 2) plt.ylim(-2, 2) plt.show()

提示：在Jupyter Notebook中运行上述代码，可以通过滑块实时观察不同方向上的方向导数变化。

3. 梯度下降算法可视化

3.1 实现基础梯度下降

梯度下降是机器学习中广泛使用的优化算法。让我们实现并可视化它的工作过程：

def gradient_descent(start, learning_rate=0.1, n_iter=20): path = [start] current = np.array(start, dtype='float64') for _ in range(n_iter): grad = gradient(*current) current -= learning_rate * grad path.append(current.copy()) return np.array(path) # 执行梯度下降 path = gradient_descent([4, 4], learning_rate=0.1) # 可视化 plt.figure(figsize=(8, 6)) plt.contour(X, Y, Z, 20, colors='black', alpha=0.3) plt.plot(path[:, 0], path[:, 1], 'ro-') plt.title('梯度下降路径') plt.xlabel('x') plt.ylabel('y') plt.show()

3.2 3D视角的梯度下降

让我们在3D空间中观察梯度下降过程：

fig = plt.figure(figsize=(10, 7)) ax = fig.add_subplot(111, projection='3d') # 绘制曲面 ax.plot_surface(X, Y, Z, cmap='viridis', alpha=0.7) # 绘制路径 z_path = f(path[:, 0], path[:, 1]) ax.plot(path[:, 0], path[:, 1], z_path, 'ro-', markersize=5) ax.set_title('3D视角的梯度下降') plt.show()

3.3 学习率的影响

学习率是梯度下降的关键参数。我们可以比较不同学习率的效果：

学习率	收敛速度	稳定性	最终精度
0.01	慢	高	高
0.1	中等	高	高
0.5	快	中等	中等
1.0	很快	低	可能发散

learning_rates = [0.01, 0.1, 0.5, 1.0] paths = [] for lr in learning_rates: paths.append(gradient_descent([4, 4], learning_rate=lr)) plt.figure(figsize=(10, 8)) for i, (path, lr) in enumerate(zip(paths, learning_rates)): plt.subplot(2, 2, i+1) plt.contour(X, Y, Z, 20, colors='black', alpha=0.3) plt.plot(path[:, 0], path[:, 1], 'ro-') plt.title(f'学习率={lr}') plt.tight_layout() plt.show()

4. 切平面与极值分析

4.1 曲面的切平面

切平面是理解函数局部行为的重要工具。给定点(x₀,y₀)，切平面方程为： z = f(x₀,y₀) + fₓ(x₀,y₀)(x-x₀) + fᵧ(x₀,y₀)(y-y₀)

def tangent_plane(x0, y0): a = 2*x0 # fₓ b = 2*y0 # fᵧ c = f(x0, y0) - a*x0 - b*y0 return a*X + b*Y + c # 选择切点 x0, y0 = 1, 1 Z_tangent = tangent_plane(x0, y0) # 绘制 fig = plt.figure(figsize=(10, 7)) ax = fig.add_subplot(111, projection='3d') # 曲面和切平面 ax.plot_surface(X, Y, Z, cmap='viridis', alpha=0.7) ax.plot_surface(X, Y, Z_tangent, color='orange', alpha=0.5) # 标记切点 ax.scatter([x0], [y0], [f(x0, y0)], color='red', s=50) ax.set_title(f'在({x0},{y0})处的切平面') plt.show()

4.2 极值点分析

极值点是梯度为零的点。我们可以通过Hessian矩阵判断极值性质：

def hessian(x, y): return np.array([[2, 0], [0, 2]]) # 对于f(x,y)=x²+y² # 分析临界点(0,0) H = hessian(0, 0) eigenvalues = np.linalg.eigvals(H) print(f"Hessian矩阵的特征值: {eigenvalues}")

对于这个函数：

在(0,0)处梯度为零
Hessian矩阵的特征值均为正，说明这是极小值点
从3D图中也可以直观看出这是最低点

4.3 更复杂函数的示例

让我们看一个更复杂的函数：f(x,y) = x³ + y³ - 3xy

def complex_f(x, y): return x**3 + y**3 - 3*x*y Z_complex = complex_f(X, Y) # 绘制 fig = plt.figure(figsize=(12, 5)) ax1 = fig.add_subplot(121, projection='3d') ax1.plot_surface(X, Y, Z_complex, cmap='coolwarm') ax1.set_title('3D曲面') ax2 = fig.add_subplot(122) contour = ax2.contour(X, Y, Z_complex, 20, cmap='RdYlBu') plt.colorbar(contour) ax2.set_title('等高线图') plt.tight_layout() plt.show()

这个函数有多个临界点，可以通过求解梯度为零的方程组找到它们：

from scipy.optimize import minimize # 寻找临界点 results = [] for init in [[0,0], [1,1], [-1,-1]]: res = minimize(lambda x: np.sum(gradient_complex(*x)**2), init) if res.success and np.allclose(res.x, np.round(res.x), atol=0.1): results.append(res.x) print("找到的临界点坐标:") for point in np.unique(np.round(results, 2), axis=0): print(point)

通过可视化与计算相结合，我们可以全面理解多元函数的极值特性。

企业官网建设流程全解析