在Google Cloud AI Platform上使用分布式机器学习(ML)模型训练时,您确实可以利用CMLE(云机器学习引擎)模型部署的配置文件来定义训练中使用的机器数量。 但是,无法直接定义将使用的机器类型。
在分布式 ML 模型训练中,CMLE 模型部署配置文件允许您指定训练的规模层。 规模层决定了训练作业中使用的机器的数量和类型。 扩展层选项范围从基本到自定义,每个层都有预定义数量的工作人员和参数服务器。 通过选择适当的规模层,您可以控制用于训练的机器数量。
例如,如果您选择规模层 BASIC,它将使用单个工作线程且无参数服务器。 另一方面,如果您选择规模层 STANDARD_1,它将使用一个工作线程和一个参数服务器。 规模层 PREMIUM_1 使用 XNUMX 个工作线程和 XNUMX 个参数服务器,而规模层 CUSTOM 允许您显式指定工作线程和参数服务器的数量。
但是,虽然您可以定义机器的数量,但无法直接指定训练中使用的机器类型。 使用的机器类型由规模层决定,并由 Google Cloud AI Platform 预定义。 每个规模层都有一个与其关联的默认机器类型,该机器类型针对给定的规模层进行了优化。 例如,BASIC 规模层使用 n1-standard-1 机器类型,而 STANDARD_1 规模层使用 n1-standard-4 机器类型。
如果您需要对训练中使用的机器类型进行更多控制,可以将自定义容器与 Cloud AI Platform 结合使用。 使用自定义容器,您可以构建和部署自己的训练映像,这允许您指定训练所需的机器类型和其他依赖项。 通过创建自定义容器,您可以灵活地定义适合您的培训需求的确切机器类型。
在 Google Cloud AI Platform 上使用分布式 ML 模型训练时,您可以通过 CMLE 模型部署配置文件定义用于训练的机器数量。 但是,您无法直接指定所使用的机器类型,因为它由规模层决定。 如果您需要对机器类型进行更多控制,您可以利用自定义容器来构建和部署您自己的训练映像。
最近的其他问题和解答 EITC/AI/GCML Google云机器学习:
- 什么是文本转语音 (TTS) 以及它如何与人工智能配合使用?
- 在机器学习中处理大型数据集有哪些限制?
- 机器学习可以提供一些对话帮助吗?
- 什么是 TensorFlow 游乐场?
- 更大的数据集实际上意味着什么?
- 算法的超参数有哪些示例?
- 什么是集成学习?
- 如果选择的机器学习算法不合适怎么办?如何确保选择正确的算法?
- 机器学习模型在训练过程中是否需要监督?
- 基于神经网络的算法中使用的关键参数是什么?
查看 EITC/AI/GCML Google Cloud Machine Learning 中的更多问题和解答
更多问题及解答:
- 领域: 人工智能
- 程序: EITC/AI/GCML Google云机器学习 (前往认证计划)
- 教训: Google Cloud AI平台 (去相关课程)
- 主题: 在Cloud AI Platform上使用自定义容器训练模型 (转到相关主题)