算法■深度|大数据算法应用的测试发展之路( 五 )
3 性能压测
对于由离线、在线两部分构成的AI系统 , 在线是响应的是用户实时访问请求 , 对响应时间要求更高 , 在线系统的性能是这一部分的重点 。 离线的性能很大程度上取决于训练平台在计算资源方面的调度使用 , 我们一般通过简单的源头数据复制来做验证 。 对于在线系统 , 分为读场景和写场景的性能测试 , 写场景的性能在第二部分实时更新链路的时效性部分已有介绍 , 这里主要讲一下在线场景的读场景的性能容量测试 。
在线系统一般由二三十个不同的引擎模块组成 , 引擎里的数据 Data 与测试 Query 的不同都会极大的影响性能测试结果 , 同时也由于维护线下的性能测试环境与线上环境的数据同步工作需要极大的代价 , 我们目前的策略都是选择在线上的某个生产集群里做性能容量测试 。 对于可以处理几十万 QPS(Query Per Second)的在线系统 , 难点在于如何精准控制产生如此量级的并发 Query , 使用简单的多线程或多进程的控制已经无法解决 , 我们在这里使用了一个爬山算法(梯度多伦迭代爬山法)来做流量的精准控制 , 背后是上百台的压力测试机器递增式地探测系统性能水位 。
另外一个建设的方向是整个压测流程的自动化以及执行上的无人值守 , 从基于场景的线上 Query 的自动选取、到压力生成、再到均值漂移算法的系统自动化校验工作 , 整个压测流程会如行云流水一般的按照预设自动完成 。 配合着集群之间的切流 , 可以做到白+黑(白天夜间)的日常压测 , 对线上水位和性能瓶颈的分析带来了极大的便利 。
4 效果的测试与评估
这是大数据应用算法的重头戏 , 由于算法的效果涉及到搜索广告业务的直接受益(Revenue & GMV) , 我们在这个方向上也有比较大的投入 , 分为以下几个子方向 。
1) 特征与样本的质量与功效评估
通过对特征质量(有无数据及分布问题) , 以及特征效用(对算法有无价值)两个角度出发 , 在特征指标计算上找到一些比较重要的指标:缺失率占比、高频取值、分布变化、取值相关性等 。 同时 , 在训练和评估过程中大量中间指标与模型效果能产生因果关系 , 通过系统的分析建模张量、梯度、权重和更新量 , 能够对算法调优、问题定位起到辅助决策作用 。
而且 , 通过改进 AUC 算法 , 分析 ROC、PR、预估分布等更多评估指标 , 能够更全面的评估模型效果 。 随着数据量级的增加 , 最近两年我们在建模和训练过程中使用了千亿参数、万亿样本 , Graph Deep Learning 也进入百亿点千亿边的阶段 , 在如此浩瀚的数据海洋里 , 如何可视化特征样本以及上述的各种指标成为一个难点 , 我们在 Google 开源的 Tensorboard 的基础上做了大量的优化与改进 , 帮助算法工程师在数据指标的可视化、训练过程的调试、深度模型的可解释性上给与了较好的支持 。
2) 在线流量实验
算法项目在正式上线之前 , 模型需要在实验环境中引入真实的线上流量进行效果测试和调优 , 在第一代基于Google分层实验架构的在线分层实验(原理 Google 论文“Overlapping Experiment Infrastructure More, Better, Faster Experimentation”)的基础上 , 我们在并发实验、参数管理、参数间相互覆盖、实验质量缺乏保障、实验调试能力缺失、实验扩展能力不足等方面做了很多的改进 , 极大地提升了流量的并发复用与安全机制 , 达到真正的生产实验的目的 。 在效果上 , 通过在线实验平台引入的真实流量的验证 , 使得模型的效果质量得到极大的保障 。
3) 数据效果评测
这里分两块:相关性评测与效果评测 。 相关性是相关性模型的一个很重要的评估指标 , 我们主要通过数据评测来解决 , 通过对搜索展示结果的指标评测 , 可以得到每次搜索结果的相关性分数 , 细分指标包括:经典衡量指标 CSAT (Customer Satisfaction , 包括非常满意、满意、一般、不满意、非常不满意)、净推荐值 NPS (Net Promoter Score , 由贝恩咨询企业客户忠诚度业务的创始人 Fred Reichheld 在 2003 年提出 , 它通过测量用户的推荐意愿 , 从而了解用户的忠诚度)、CES (Customer Effort Score , “客户费力度”是让用户评价使用某产品/服务来解决问题的困难程度)、HEART 框架(来源于 Google , 从愉悦度 Happiness、Engagement 参与度、Adoption 接受度、Retention 留存率、Task success 任务完成度) 。
推荐阅读
- 人群中国科学家通过古人基因组数据探寻中国文明源流
- 联想|联想个人云存储Mac版上线 苹果电脑用户数据备份更便捷
- 信息史上最全SpaceX火箭数据开源,核心、组员舱、起落架、发射信息全都有!
- 云创|真旺(徐州)大数据总经理李华领一行到访云创
- 新智元|B站上线!DeepMind加UCL强强联手推出深度学习与强化学习进阶课程(附视频)
- 主题马蜂窝大数据:大人小孩一起过“六一”,主题公园最受欢迎
- |6大数据可视化应用设计规范
- 链上|链上数据5月扫描:10000美元阻力下的链上百态
- 孜然实验室|DNA存储器突破了理论极限,一部手机装下全世界的数据
- 数据驶向智能海洋深处,华为存储的无尽想象