从相机标定到3D点云：手把手教你用OpenCV和Python实现一个简易的SFM系统-港品优选

从相机标定到3D点云：手把手教你用OpenCV和Python实现一个简易的SFM系统

在计算机视觉领域，从二维图像重建三维场景一直是一个令人着迷的挑战。想象一下，你只需要用普通相机拍摄几张照片，就能获得场景的三维模型——这正是运动恢复结构(Structure from Motion, SFM)技术的魅力所在。本文将带你从零开始，用Python和OpenCV构建一个简易但完整的SFM系统，实现从相机标定到3D点云生成的全流程。

1. 环境准备与相机标定

任何SFM系统的第一步都是相机标定——确定相机的内在参数。这些参数描述了镜头如何将三维世界投影到二维图像上。我们使用OpenCV的calibrateCamera函数来完成这一关键步骤。

首先安装必要的库：

pip install opencv-python numpy matplotlib

准备一个棋盘格标定板（建议使用8x6的棋盘格），并从不同角度拍摄至少15张照片。将这些图片保存在calibration_images文件夹中。

import cv2 import numpy as np import glob # 准备标定板角点的世界坐标 (0,0,0), (1,0,0), ..., (7,5,0) objp = np.zeros((6*8,3), np.float32) objp[:,:2] = np.mgrid[0:8,0:6].T.reshape(-1,2) # 存储世界坐标和图像坐标 objpoints = [] # 3D点 imgpoints = [] # 2D点 images = glob.glob('calibration_images/*.jpg') for fname in images: img = cv2.imread(fname) gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 查找棋盘格角点 ret, corners = cv2.findChessboardCorners(gray, (8,6), None) if ret: objpoints.append(objp) # 亚像素级精确化 corners2 = cv2.cornerSubPix(gray,corners, (11,11), (-1,-1), (cv2.TERM_CRITERIA_EPS + cv2.TERM_CRITERIA_MAX_ITER, 30, 0.001)) imgpoints.append(corners2) # 相机标定 ret, mtx, dist, rvecs, tvecs = cv2.calibrateCamera(objpoints, imgpoints, gray.shape[::-1], None, None)

关键参数说明：

mtx: 相机内参矩阵，包含焦距(fx, fy)和主点(cx, cy)
dist: 畸变系数，描述镜头的径向和切向畸变
rvecs,tvecs: 每张标定图片的旋转和平移向量

2. 特征提取与匹配

有了相机参数，下一步是从图像序列中提取特征点并建立匹配关系。我们使用SIFT特征检测器，它在尺度和旋转变化下都具有良好的鲁棒性。

def extract_features(image): sift = cv2.SIFT_create() kp, desc = sift.detectAndCompute(image, None) return kp, desc def match_features(desc1, desc2, ratio=0.75): bf = cv2.BFMatcher() matches = bf.knnMatch(desc1, desc2, k=2) # 应用Lowe's比率测试 good = [] for m,n in matches: if m.distance < ratio*n.distance: good.append(m) return good

特征匹配的常见问题与解决方案：

问题类型	表现	解决方法
误匹配	匹配点明显不正确	使用比率测试(Ratio Test)
匹配不足	匹配点数量太少	调整特征检测参数或尝试其他特征(如ORB)
分布不均	匹配点集中在某区域	使用网格划分或均匀特征提取

3. 基础矩阵估计与RANSAC

特征匹配后，我们需要估计基础矩阵(Fundamental Matrix)，它描述了两幅图像之间的极几何关系。由于匹配中可能存在噪声和异常值，我们使用RANSAC算法进行鲁棒估计。

def estimate_fundamental_matrix(matches, kp1, kp2): pts1 = np.float32([kp1[m.queryIdx].pt for m in matches]) pts2 = np.float32([kp2[m.trainIdx].pt for m in matches]) # 使用RANSAC估计基础矩阵 F, mask = cv2.findFundamentalMat(pts1, pts2, cv2.FM_RANSAC) # 只保留内点 inlier_matches = [m for i,m in enumerate(matches) if mask[i]] return F, inlier_matches

RANSAC参数调优经验：

param1: 3.0 (默认值对大多数情况适用)
param2: 0.99 (置信度，值越高越严格)
maxIters: 2000 (迭代次数，复杂场景可增加)

提示：基础矩阵估计是SFM中最关键的步骤之一。如果结果不理想，可以尝试：
增加RANSAC迭代次数
使用更严格的特征匹配比率
检查相机标定是否正确

4. 三角测量与点云生成

有了相机参数和基础矩阵，我们可以通过三角测量计算匹配特征点的三维位置。OpenCV的triangulatePoints函数实现了这一功能。

def triangulate_points(matches, kp1, kp2, K, F): # 计算本质矩阵 E = K.T @ F @ K # 从本质矩阵恢复相机姿态 _, R, t, _ = cv2.recoverPose(E, np.array([kp1[m.queryIdx].pt for m in matches]), np.array([kp2[m.trainIdx].pt for m in matches]), K) # 构建投影矩阵 P1 = K @ np.hstack((np.eye(3), np.zeros((3,1)))) P2 = K @ np.hstack((R, t)) # 准备匹配点 pts1 = np.array([kp1[m.queryIdx].pt for m in matches]) pts2 = np.array([kp2[m.trainIdx].pt for m in matches]) # 三角测量 points_4d = cv2.triangulatePoints(P1, P2, pts1.T, pts2.T) points_3d = points_4d[:3] / points_4d[3] return points_3d.T, R, t

三角测量的质量检查：

正深度检查：所有点应在相机前方(z>0)
重投影误差：计算3D点重投影到图像上的误差
视差角度：两视图观测向量之间的夹角应足够大(建议>1°)

5. 多视图扩展与光束法平差

单对视图的三角测量会产生累积误差。为了构建完整的场景，我们需要将多视图信息融合并进行全局优化。

def bundle_adjustment(points_3d, camera_poses, feature_tracks, K): # 初始化参数 n_cameras = len(camera_poses) n_points = points_3d.shape[0] # 构建优化问题 from scipy.sparse import lil_matrix from scipy.optimize import least_squares def project(points, camera_params): # 实现投影函数 pass def fun(params, n_cameras, n_points, camera_indices, point_indices, points_2d): # 计算重投影误差 pass # 调用最小二乘优化 res = least_squares(fun, initial_params, args=(n_cameras, n_points, camera_indices, point_indices, points_2d)) return optimized_params

光束法平差的实用技巧：

使用稀疏矩阵存储雅可比矩阵
先固定相机参数优化点，再联合优化
对异常点应用鲁棒核函数(Huber损失)

6. 结果可视化与评估

最后，我们将生成的3D点云可视化并评估重建质量。使用Matplotlib的3D绘图功能可以方便地查看结果。

def visualize_point_cloud(points_3d, colors=None): fig = plt.figure(figsize=(10, 8)) ax = fig.add_subplot(111, projection='3d') if colors is not None: ax.scatter(points_3d[:,0], points_3d[:,1], points_3d[:,2], c=colors/255.0, s=1) else: ax.scatter(points_3d[:,0], points_3d[:,1], points_3d[:,2], s=1) ax.set_xlabel('X') ax.set_ylabel('Y') ax.set_zlabel('Z') plt.show()

评估指标：

重投影误差均值(应<1像素)
点云密度(每张图像贡献的点数)
重建完整性(覆盖的场景范围)

在实际项目中，我发现以下几个经验特别有价值：

相机标定的质量直接影响最终重建精度，建议使用20张以上标定图片
特征匹配阶段，SIFT比ORB更稳定但计算量更大
增量式重建比全局重建更稳定，适合初学者
内存管理很重要，大规模场景需要分块处理

企业官网建设流程全解析