SQLFlow|让AI造福金融,支付宝端到端AI系统SQLFlow实践( 五 )


最后一个例子是 SQLFlow 的重要贡献者滴滴在去年云栖大会分享的一个应用:滴滴司机出车偏好分析 。 探索出不同类别的司机 , 可以为后续策略投放和管理提供信息 。 左侧数据表中为每个司机的每天的出车时长数据 , 每一列表示10分钟 , 一天有144个10分钟 , 就是144个数据点 , 每个点是在这10分钟内司机出车的时间比例 。 这样我们就可以在JupyterNotebook使用 matplot 得到如下图的这样的可视化展示 , 这张图里明显看不出来任何规律 。
SQLFlow|让AI造福金融,支付宝端到端AI系统SQLFlow实践
文章图片

然后我们使用DeepEmbeddingClusterModel来进行聚类分析 , 编写如下的SQL:

SELECT * FROM driver_log.train
TO TRAIN sqlflow_models.DeepEmbeddingClusterModel
WITH model.n_clusters=5
INTO cluster_dirver_model;
其中 model.n_clusters=5 指定把数据聚成5类 。 然后使用下面预测SQL语句输出聚类结果:
SELECT * FROM driver_log.train
TO PREDICT dirver_log.predict.class
USING cluster_driver_model;
然后再次使用matplot , 根据类别绘制司机出车时长 , 可以得到如下这张图 , 比如我们可以这样解释这张图:司机分成了自由职业司机 , 定时上下班司机 , 996司机 , 佛系司机 , 夜猫子司机5大类 。 当然我们也可以探索不同数目的聚类结果 , 可能会发现更多的规律 。
SQLFlow|让AI造福金融,支付宝端到端AI系统SQLFlow实践
文章图片

总结 SQLFlow 不但将数据库和 AI 系统连接起来 , 还提供将一段 SQL 程序自动根据依赖关系编译成并发执行的工作流 , 在 Kubernetes 集群上分布式地运行 。 SQLFlow 提供了丰富的内置模型和 Model Zoo , 用户只需要编写 SQL 就可以完成完整 AI 任务的构建 , 算法同学可以更加专注于建模工作 , 大大降低构建 AI 系统的成本和时间 。 如果您对 SQLFlow 项目感兴趣 , 可以在 SQLFlow Github 社区获得帮助 。 也可以使用我们提供的本地 playground 快速试用 。


推荐阅读