struct perf_event_context { struct pmu *pmu; struct list_head event_list; struct task_struct *task; ...}c. 把event与一个context进行关联,见perf_install_in_context();
d. 最后,把fd和perf_fops进行绑定:
static const struct file_operations perf_fops = { .llseek = no_llseek, .release = perf_release, .read = perf_read, .poll = perf_poll, .unlocked_ioctl = perf_ioctl, .compat_ioctl = perf_compat_ioctl, .mmap = perf_mmap, .fasync = perf_fasync,};perf系统调用大致的调用链如下:
sys_perf_event_open() get_unused_fd_flags()perf_event_alloc()find_get_context()alloc_perf_context()anon_inode_getfile()perf_install_in_context()add_event_to_ctx()fd_install(event_fd, event_file)内核态工作流
perf event有两种方式:计数(counting)和采样(sampled) 。计数方式会对发生在所有指定cpu和指定进程的事件次数进行求和,对事件数值通过read()获得 。而采样方式会周期性地把计数结果放在由mmap()创建的ring buffer中 。回到开始的简单perf-stat示例,用的是计数(counting)方式 。
接下来,我们主要了解这几个问题:
- 怎么enable和disable计数器?
- 进行计数的时机在哪里?
- 如何读取计数结果?
static const struct file_operations perf_fops = { .read = perf_read, .unlocked_ioctl = perf_ioctl,...首先,我们看一下怎样enable计数器的,主要步骤如下:
perf_ioctl() __perf_event_enable()ctx_sched_out() IF ctx->is_activectx_resched()perf_pmu_disable()task_ctx_sched_out()cpu_ctx_sched_out()perf_event_sched_in()event_sched_in()event->pmu->add(event, PERF_EF_START)perf_pmu_enable()pmu->pmu_enable(pmu)这个过程有很多调度相关的处理,使整个逻辑显得复杂,我们暂且不关心太多调度细节 。硬件的PMU资源是有限的,当event数量多于可用的PMC时,多个virtual counter就会复用硬件PMC 。因此, PMU先把event添加到激活列表(pmu->add(event, PERF_EF_START)), 最后enable计数(pmu->pmu_enable(pmu) ) 。PMU是CPU体系结构相关的,可以想象它有一套为event分配具体硬件PMC的逻辑,我们暂不深究 。
我们继续了解如何获取计数器结果,大致的callchain如下:
perf_read() perf_read_one()perf_event_read_value()__perf_event_read()pmu->start_txn(pmu, PERF_PMU_TXN_READ)pmu->read(event)pmu->commit_txn(pmu)PMU最终会通过rdpmcl(counter, val)获得计数器的值,保存在perf_event::count中 。关于PMU各种操作说明,可以参考include/linux/perf_event.h:struct pmu{} 。PMU操作的实现是体系结构相关的,x86上的read()的实现是arch/x86/events/core.c:x86_pmu_read() 。
event可以设置限定条件,仅当指定的进程运行在指定的cpu上时,才能进行计数,这就是上面提到的计数时机问题 。很容易想到,这样的时机发生在进程切换的时候 。当目标进程切换出目标CPU时,PMU停止计数,并将硬件寄保存在内存变量中,反之亦然,这个过程类似进程切换时对硬件上下文的保护 。在kernel/sched/core.c, 我们能看到这些计数时机 。
在进程切换前:
prepare_task_switch() perf_event_task_sched_out()__perf_event_task_sched_out() // stop each event and update the event value in event->countperf_pmu_sched_task()pmu->sched_task(cpuctx->task_ctx, sched_in)进程切换后:
finish_task_switch() perf_event_task_sched_in()perf_event_context_sched_in()perf_event_sched_in()小结
通过对perf-list和perf-stat这两个基本的perf命令进行分析,引出了一些有意思的问题,在尝试回答这些问题的过程中,基本上总结了目前我对perf这个工具的认识 。但是,本文仅对perf的工作原理做了很粗略的梳理,也没有展开对PMU层,perf uncore等硬件相关代码进行分析,希望以后能补上这部分内容 。
最后,能坚持看到最后的亲们都是希望更深了解性能测试的,作为福利给大家推荐本书:《system performance: enterprise and the cloud》(https://pan.baidu.com/s/1yyPsJxi0XWSwIKOrAWm-Vg?errno=0&errmsg=Auth%20Login%20Sucess&&bduss=&ssnerror=0&traceid=) 书的作者是一位从事多年性能优化工作的一线工程师,想必大家都听说过他写的火焰图程序: perf Examples【http://www.brendangregg.com/perf.html】
Cheers!
参考索引
- Cycles per instruction: https://en.wikipedia.org/wiki/Cycles_per_instruction
- uncore: https://en.wikipedia.org/wiki/Uncore
- 《Intel® Xeon® Processor E5 and E7 v4 Product Families Uncore Performance Monitoring Reference Manual》
- 《Linux设备驱动程序》中第二章PCI驱动程序
- https://patchwork.kernel.org/patch/10412883/
- linux/tools/perf/design.txt
推荐阅读
- 黑客工具包“Domen”支持30种语言,通过虚假更新传播恶意软件
- Linux信号列表
- Linux:史上最全的Free命令解析以及案例
- 阿里P7架构师浅析:如何优化Java程序设计、编码提高性能
- 真实案例记录Linux被植入rootkit导致服务器带宽跑满的解决过程
- 远程桌面管理工具novnc的搭建和使用
- 数据库远程连接工具 linux安装Mysql5.7和安装navicat介绍
- Java性能 -- CAS乐观锁
- MAC原型设计工具 原型设计工具
- linux屏蔽海外流量的两种方法