手把手教你用Python处理SynOld老照片数据集：从合并图到LQ/GT分离的完整流程-港品优选

手把手教你用Python处理SynOld老照片数据集：从合并图到LQ/GT分离的完整流程

老照片修复技术近年来在计算机视觉领域备受关注，而高质量的数据集是训练优秀模型的基础。SynOld作为老照片修复领域常用的数据集之一，采用了独特的左右拼接格式存储低质量(LQ)和高质量(GT)图像对。这种存储方式虽然节省空间，但在实际训练前需要进行预处理。本文将详细介绍如何使用Python处理这类特殊格式的数据集，从基础的分割操作到完整的工程化解决方案。

1. 理解SynOld数据集的结构与特点

SynOld数据集包含500对训练图像和200对测试图像，每对图像由低质量版本(LQ)和高质量版本(GT)水平拼接而成。这种存储方式在图像修复领域并不常见，但却有其独特的优势：

空间效率：合并存储减少了文件数量，降低了文件系统开销
对齐保证：拼接后的图像天然保证了LQ和GT的像素级对齐
防错设计：避免了单独存储可能导致的文件丢失或错配问题

然而，这种格式也带来了使用上的不便：

大多数图像修复框架期望LQ和GT分别存储在不同文件夹中
直接使用合并图像会浪费计算资源处理不需要的区域
批量数据增强操作难以针对性地应用于LQ或GT部分

理解这些特点后，我们需要设计一个可靠的分割流程，将合并图像还原为标准格式，同时保持原始数据的完整性。

2. 基础分割脚本解析与实现

下面是一个完整的Python脚本，用于将SynOld的合并图像分割为独立的LQ和GT图像：

import os from PIL import Image def split_synold_images(input_dir, output_dir): """ 将SynOld格式的合并图像分割为独立的LQ和GT图像 参数: input_dir (str): 包含合并图像的输入目录路径 output_dir (str): 分割后图像的输出目录路径 """ # 创建LQ和GT子目录 lq_dir = os.path.join(output_dir, 'LQ') gt_dir = os.path.join(output_dir, 'GT') os.makedirs(lq_dir, exist_ok=True) os.makedirs(gt_dir, exist_ok=True) # 处理目录中的每个JPEG文件 for filename in os.listdir(input_dir): if filename.lower().endswith(('.jpg', '.jpeg', '.png')): img_path = os.path.join(input_dir, filename) try: with Image.open(img_path) as img: width, height = img.size # 验证图像宽度是否为偶数 if width % 2 != 0: print(f"警告: {filename} 的宽度不是偶数，无法均分") continue # 分割左半部分(LQ)和右半部分(GT) lq_img = img.crop((0, 0, width//2, height)) gt_img = img.crop((width//2, 0, width, height)) # 保存分割后的图像 base_name = os.path.splitext(filename)[0] lq_img.save(os.path.join(lq_dir, f"{base_name}_LQ.jpg")) gt_img.save(os.path.join(gt_dir, f"{base_name}_GT.jpg")) except Exception as e: print(f"处理 {filename} 时出错: {str(e)}")

这个脚本的核心功能包括：

目录结构创建：自动建立LQ和GT子目录
图像分割逻辑：
- 使用Pillow库加载图像
- 计算图像宽度并验证可分割性
- 使用crop方法精确提取左右两部分
错误处理机制：
- 检查图像宽度是否为偶数
- 捕获并报告处理过程中的异常
文件命名规范：保留原始文件名并添加_LQ/_GT后缀

提示：在实际应用中，建议添加日志记录功能而非直接打印，便于后期问题排查。

3. 工程化扩展：批量处理与验证

基础脚本满足了单个目录的处理需求，但在实际项目中，我们通常需要更完善的解决方案。以下是几个关键的工程化扩展点：

3.1 多目录批量处理

对于包含多个子集的数据集，我们可以扩展脚本以支持批量处理：

def batch_process_synold(root_dir, output_base): """ 批量处理包含多个子集的SynOld数据集 参数: root_dir (str): 包含train/test等子集的根目录 output_base (str): 输出文件的基础目录 """ for subset in ['train', 'test', 'val']: input_dir = os.path.join(root_dir, subset) if os.path.exists(input_dir): output_dir = os.path.join(output_base, subset) split_synold_images(input_dir, output_dir)

3.2 数据完整性验证

分割后的数据需要验证以确保处理过程没有引入错误：

def validate_split_results(output_dir): """ 验证分割结果的完整性和一致性 参数: output_dir (str): 包含LQ和GT子目录的输出目录 """ lq_dir = os.path.join(output_dir, 'LQ') gt_dir = os.path.join(output_dir, 'GT') lq_files = set(f.replace('_LQ.jpg', '') for f in os.listdir(lq_dir)) gt_files = set(f.replace('_GT.jpg', '') for f in os.listdir(gt_dir)) # 检查文件数量是否匹配 if len(lq_files) != len(gt_files): print(f"警告: LQ({len(lq_files)})和GT({len(gt_files)})文件数量不匹配") # 检查文件名是否一一对应 missing_in_gt = lq_files - gt_files missing_in_lq = gt_files - lq_files if missing_in_gt: print(f"GT中缺少对应文件: {missing_in_gt}") if missing_in_lq: print(f"LQ中缺少对应文件: {missing_in_lq}")

3.3 性能优化与并行处理

对于大型数据集，我们可以采用多进程加速处理：

from multiprocessing import Pool def parallel_split_images(input_dir, output_dir, workers=4): """ 使用多进程并行处理图像分割 参数: input_dir (str): 输入目录路径 output_dir (str): 输出目录路径 workers (int): 并行工作进程数 """ # 创建输出目录 os.makedirs(os.path.join(output_dir, 'LQ'), exist_ok=True) os.makedirs(os.path.join(output_dir, 'GT'), exist_ok=True) # 准备任务列表 tasks = [(f, input_dir, output_dir) for f in os.listdir(input_dir) if f.lower().endswith(('.jpg', '.jpeg', '.png'))] # 使用进程池处理 with Pool(workers) as p: p.starmap(process_single_image, tasks) def process_single_image(filename, input_dir, output_dir): """处理单个图像文件的辅助函数""" try: img_path = os.path.join(input_dir, filename) with Image.open(img_path) as img: width, height = img.size if width % 2 != 0: return lq_img = img.crop((0, 0, width//2, height)) gt_img = img.crop((width//2, 0, width, height)) base_name = os.path.splitext(filename)[0] lq_img.save(os.path.join(output_dir, 'LQ', f"{base_name}_LQ.jpg")) gt_img.save(os.path.join(output_dir, 'GT', f"{base_name}_GT.jpg")) except Exception as e: print(f"处理 {filename} 时出错: {str(e)}")

4. 通用化处理方案与最佳实践

虽然上述方案针对SynOld数据集，但我们可以抽象出通用模式来处理类似格式的数据集：

4.1 支持多种拼接方式

扩展脚本以支持垂直拼接或其他分割比例：

def split_image_with_mode(img, mode='horizontal', ratio=0.5): """ 通用图像分割函数，支持多种拼接方式 参数: img (PIL.Image): 待分割的图像 mode (str): 拼接模式 ('horizontal'|'vertical') ratio (float): 分割比例 (0-1) 返回: tuple: (第一部分图像, 第二部分图像) """ width, height = img.size if mode == 'horizontal': split_pos = int(width * ratio) return (img.crop((0, 0, split_pos, height)), img.crop((split_pos, 0, width, height))) else: split_pos = int(height * ratio) return (img.crop((0, 0, width, split_pos)), img.crop((0, split_pos, width, height)))

4.2 配置文件驱动处理

使用JSON配置文件定义处理规则，提高灵活性：

{ "dataset_name": "SynOld", "input_structure": { "train": "path/to/train", "test": "path/to/test" }, "split_params": { "mode": "horizontal", "ratio": 0.5, "naming": { "part1_suffix": "_LQ", "part2_suffix": "_GT" } } }

对应的Python处理代码：

import json def process_with_config(config_file): """根据配置文件处理数据集""" with open(config_file) as f: config = json.load(f) for subset, input_dir in config['input_structure'].items(): output_dir = os.path.join('processed', config['dataset_name'], subset) os.makedirs(output_dir, exist_ok=True) split_params = config['split_params'] process_directory(input_dir, output_dir, split_params) def process_directory(input_dir, output_dir, params): """根据参数处理单个目录""" part1_dir = os.path.join(output_dir, 'part1') part2_dir = os.path.join(output_dir, 'part2') os.makedirs(part1_dir, exist_ok=True) os.makedirs(part2_dir, exist_ok=True) for filename in os.listdir(input_dir): if filename.lower().endswith(('.jpg', '.jpeg', '.png')): img_path = os.path.join(input_dir, filename) with Image.open(img_path) as img: part1, part2 = split_image_with_mode( img, params['mode'], params['ratio']) base_name = os.path.splitext(filename)[0] part1.save(os.path.join(part1_dir, f"{base_name}{params['naming']['part1_suffix']}.jpg")) part2.save(os.path.join(part2_dir, f"{base_name}{params['naming']['part2_suffix']}.jpg"))

4.3 质量检查与可视化

在处理完成后，建议进行质量检查：

随机抽样检查：人工查看部分分割结果
指标验证：计算分割前后图像的统计特性是否一致
差异可视化：生成对比图帮助发现问题

def visualize_split_results(lq_path, gt_path, output_path): """ 生成分割结果的可视化对比图 参数: lq_path (str): LQ图像路径 gt_path (str): GT图像路径 output_path (str): 输出图像路径 """ lq_img = Image.open(lq_path) gt_img = Image.open(gt_path) # 创建对比图像 width, height = lq_img.size result = Image.new('RGB', (width*2, height)) result.paste(lq_img, (0, 0)) result.paste(gt_img, (width, 0)) # 添加分隔线和标签 draw = ImageDraw.Draw(result) draw.line([(width, 0), (width, height)], fill='red', width=2) draw.text((10, 10), "LQ", fill='white') draw.text((width+10, 10), "GT", fill='white') result.save(output_path)

5. 实际应用中的注意事项

在处理SynOld或其他类似数据集时，有几个关键点需要特别注意：

文件命名一致性：
- 确保LQ和GT文件的对应关系明确
- 避免特殊字符和空格在文件名中
- 考虑使用UUID等唯一标识符而非简单序号
图像格式处理：
- 统一转换为标准格式(如JPEG或PNG)
- 注意颜色空间的一致性(RGB vs. Grayscale)
- 处理可能的Alpha通道问题
存储优化：
- 考虑使用压缩格式平衡质量和大小
- 对于大型数据集，可以考虑HDF5等高效存储格式
- 建立合理的目录结构便于版本管理
元数据保留：
- 保留原始图像的EXIF等信息
- 考虑创建处理日志记录操作历史
- 添加README说明处理流程和参数
版本控制：
- 对原始数据和处理后的数据分别进行版本管理
- 使用checksum验证数据完整性
- 考虑使用数据注册表跟踪不同版本

在实际项目中，我曾遇到过因文件名包含特殊字符导致处理失败的情况，后来统一采用了简单的字母数字组合命名方案。另一个常见问题是图像格式不一致，有些是JPEG，有些是PNG，最佳实践是在处理前统一转换格式。

企业官网建设流程全解析