Horovod Timeline and MPI Tracing in Azure Machine Learning Workspace(MPI Configuration)

Question

Horovod Timeline and MPI Tracing in Azure Machine Learning Workspace(MPI Configuration)

173 views Asked by SriramN At 09 April 2020 at 21:37

All,
I am trying to train a distributed model using Horovod on Azure Machine Learning Service as shown below.

estimator = TensorFlow(source_directory=script_folder,
                       entry_script='train_script.py',
                       script_params=script_params,
                       compute_target=compute_target_gpu_4,
                       conda_packages=['scikit-learn'],                       
                       node_count=2,                        
                       distributed_training=MpiConfiguration(),
                       framework_version = '1.13',
                       use_gpu=True
                      )
run = exp.submit(estimator)