从linux内核看io_uring的实现

本文介绍一下io_uring在内核的实现,因为io_uring实现代码量大,逻辑复杂,所以只能慢慢分析 。这一篇介绍io_uring初始化接口io_uring_setup的实现 。
io_uring_setup的声明非常简单,但是实现的细节却非常复杂,下面我们开始分析 。
static long io_uring_setup(u32 entries, struct io_uring_params __user *params){ struct io_uring_params p; int i; if (copy_from_user(&p, params, sizeof(p)))return -EFAULT; // 支持的flag if (p.flags & ~(IORING_SETUP_IOPOLL | IORING_SETUP_SQPOLL |IORING_SETUP_SQ_AFF | IORING_SETUP_CQSIZE |IORING_SETUP_CLAMP | IORING_SETUP_ATTACH_WQ))return -EINVAL; returnio_uring_create(entries, &p, params);}io_uring_setup是对io_uring_create的封装 。第一个参数entries指定请求队列的长度,第二个参数params是用于调用方和内核通信的结构体 。我们看一下定义 。
struct io_uring_params { // 定义请求队列长度(2的sq_entries次方),调用方定义 __u32 sq_entries; // 完成队列长度,默认是2 * 请求队列长度 __u32 cq_entries; // 控制内核行为的标记 __u32 flags; // poll模式下开启的内核线程绑定的cpu __u32 sq_thread_cpu; // poll模式下开启的内核线程空闲时间,之后会挂起 。__u32 sq_thread_idle; // 内核当前支持的能力,内核设置 __u32 features; __u32 wq_fd; __u32 resv[3]; // 记录内核数据的结构体,调用方后续调用mmap需要用到 。struct io_sqring_offsets sq_off; struct io_cqring_offsets cq_off;};我们接着看io_uring_create 。
static int io_uring_create(unsigned entries, struct io_uring_params *p,struct io_uring_params __user *params){struct user_struct *user = NULL;struct io_ring_ctx *ctx;bool limit_mem;int ret;p->sq_entries = roundup_pow_of_two(entries);// 自定义完成队列长度if (p->flags & IORING_SETUP_CQSIZE) {p->cq_entries = roundup_pow_of_two(p->cq_entries);// 完成队列不能小于请求队列if (p->cq_entries < p->sq_entries)return -EINVAL;// 超过阈值则需要设置IORING_SETUP_CLAMP标记if (p->cq_entries > IORING_MAX_CQ_ENTRIES) {if (!(p->flags & IORING_SETUP_CLAMP))return -EINVAL;p->cq_entries = IORING_MAX_CQ_ENTRIES;}} else {// 默认是两倍的请求队列长度p->cq_entries = 2 * p->sq_entries;}// 用户信息user = get_uid(current_user());// 分配一个ctx记录上下文,因为调用方只能拿到fd,后续操作fd的时候会拿到关联的上下文ctx = io_ring_ctx_alloc(p);ctx->user = user;// 和poll模式相关的数据结构ctx->sqo_task = get_task_struct(current);// 分配一个io_ringsret = io_allocate_scq_urings(ctx, p);// 处理poll模式的逻辑ret = io_sq_offload_start(ctx, p);// 后面还有很多,一会分析}io_uring_create代码比较多,我们分步分析 。首先分配了一个io_ring_ctx结构体,这是核心的数据结构,用于记录io_uring实例的上下文,不过我们暂时不需要了解它具体的定义,因为实在太多,只关注本文相关的字段 。

从linux内核看io_uring的实现

文章插图
 
1 分配一个io_rings结构体接着调用io_allocate_scq_urings分配一个io_rings结构体,这是非常核心的逻辑,我们看一下io_rings的定义 。
struct io_rings { struct io_uringsq, cq; u32sq_ring_mask, cq_ring_mask; u32sq_ring_entries, cq_ring_entries; u32sq_dropped; u32sq_flags; u32cq_flags; u32cq_overflow; struct io_uring_cqe cqes[];};io_rings主要用于记录请求和完成队列的信息 。我们继续看io_allocate_scq_urings 。
static int io_allocate_scq_urings(struct io_ring_ctx *ctx,struct io_uring_params *p){ struct io_rings *rings; size_t size, sq_array_offset; // 记录请求和完成队列大小到ctx ctx->sq_entries = p->sq_entries; ctx->cq_entries = p->cq_entries; /*计算结构体和额外数组的大小,sq_array_offset保存结构体大小,size保存结构体+额外数组+另一个额外数组的大小 */ size = rings_size(p->sq_entries, p->cq_entries, &sq_array_offset); // 分配内存 rings = io_mem_alloc(size); // ...}io_allocate_scq_urings细节比较多,我们分开分析,我们看一下rings_size的逻辑 。
static unsigned long rings_size(unsigned sq_entries, unsigned cq_entries,size_t *sq_offset){ struct io_rings *rings; size_t off, sq_array_size; // 计算结构体和格外数组的大小,见io_rings定义 off = struct_size(rings, cqes, cq_entries); // sq_offset记录结构体大小 if (sq_offset)*sq_offset = off; // 计算多个u32元素的数组的大小 sq_array_size = array_size(sizeof(u32), sq_entries); // 计算结构体大小 + sq_array_size的大小保存到off if (check_add_overflow(off, sq_array_size, &off))return SIZE_MAX; return off;}struct_size是计算结构体和额外字段大小的宏,我们刚才看到io_rings结构体的定义中,最后一个字段是struct io_uring_cqe cqes[],看起来是个空数组,其实他的内存是紧跟着结构体后面分配的,结构如下 。


推荐阅读