Playwright实战:破解动态网页懒加载与无限滚动的爬虫策略
2026/6/23 15:02:52
各类资料学习下载合集
链接:https://pan.quark.cn/s/770d9387db5f
在多线程编程中,生产者-消费者模型是处理数据流的核心模式。上一篇我们讲了“条件变量+互斥锁”的实现方式,今天我们来解锁一种更轻量级的武器——信号量(Semaphore),并结合环形队列来实现高效的数据吞吐。
在这个模型中,我们不再关注“互斥锁”来保护整个链表,而是关注资源的数量。我们把固定大小的缓冲区看作两类资源:
我们引入两个信号量:
blank_number:表示缓冲区中剩余的空闲位置数量。初始值为NUM(例如 5)。product_number:表示缓冲区中已有的产品数量。初始值为0。为了避免频繁的内存分配与释放(如链表节点),我们使用一个固定大小的全局数组queue[NUM]。通过取模运算i = (i + 1) % NUM,让数组下标首尾相接,形成一个环。
生产者的任务是将数据填入空格子。它的逻辑可以概括为:“申请空格 -> 生产 -> 增加产品”。
sem_wait(&blank_number)):blank_number减 1。blank_number为 0(说明缓冲区满了),生产者自动阻塞,等待消费者腾出位置。queue[p]。p = (p + 1) % NUM。sem_post(&product_number)):product_number加 1。消费者的任务是取走产品并腾出空间。它的逻辑概括为:“申请产品 -> 消费 -> 增加空格”。
sem_wait(&product_number)):product_number减 1。product_number为 0(说明缓冲区空了),消费者自动阻塞,等待生产者产出。queue[c]的数据。c = (c + 1) % NUM。queue[c] = 0,模拟消费动作。sem_post(&blank_number)):blank_number加 1。下面的代码展示了如何使用semaphore.h实现上述逻辑。我们定义缓冲区大小为 5。
#include<stdio.h>#include<stdlib.h>#include<unistd.h>#include<pthread.h>#include<semaphore.h>#include