分布式tensorflow怎样关闭server

这的确是一个问题。因为tensorflow只是一个计算框架,他目前并不包含像hadoop(Yarn)之类的集群管理功能,也不具有自己的分布式存储系统。路漫漫~~~
现在2017年过了一半了,有一些框架出来了。可以尝试一个Yahoo的开源框架yahoo/TensorFlowOnSpark,项目没多少行代码,如果有兴趣的话从头到尾读一遍也是很不错的,如果没有这个耐性,就看看这个视频把,基本都覆盖了https://www.youtube.com/watch?v=IxWfAcrZQhc\u0026amp;amp;t=775s

这个框架把tensorflow运行在spark上面,可以说是一个quick start。这样tensorflow就可以通过spark间接利用Yarn和HDFS,并通过spark的方式控制生命周期。
API也足够high-level了,就像这样
cluster = TFCluster.run(...)cluster.train(dataRDD, num_epochs=0)cluster.inference(dataRDD)cluster.shutdown() 【分布式tensorflow怎样关闭server】 (虽然我并不觉得这是一个很好的架构。。。tensorflow的发展方向感觉应该还是更适合kubernetes吧)
最近也在学习tensorflow的生态系统~

■网友
ps -ef | grep python| grep 脚本名称 | awk {\u0026#39;print $2\u0026#39;} | xargs kill
■网友
1. ps server 只负责进行参数的传递和更新,当worker工作到一定epoch退出后,ps并不知道worker已经结束;2. 在运行server.join()前,先获取ps server对应的pid值:import osos.getpid()之后在终端kill掉对应的进程。


    推荐阅读