Pytorch Fundamentals - Gradient Descent II
|
|
Título del Test:
![]() Pytorch Fundamentals - Gradient Descent II Descripción: Pytorch Fundamentals - Gradient Descent II |



| Comentarios |
|---|
NO HAY REGISTROS |
|
What is the disadvantage of using a small learning rate?. A. It may diverge into exploding loss. B. The loss starts increasing instead of decreasing. C. The training time is very large. For steeper curves, the size of the learning rate should be: A. Big. B. Small. C. Very big. Asocia. How do we then achieve equally steep curves?. Efecto de aumentar el tamaño del Mini-lote (B) en la Tasa de Aprendizaje (epsilon ε). Objetivo de la Inicialización Glorot/Xavier. Ventaja principal de Random Search sobre Grid Search. Propósito principal del Momentum. Why is it important to transform the features in our example so they may end up with unit standard deviation?. To prevent the existence of vanishing gradients. To make the training features less sensitive to the scale factor. To bring all numerical features to the same scale to achieve consistency. What is the vanishing gradient problem?. When the gradients are small, they result in exponentially decreasing updates. When the gradients are large, they result in exponentially increasing updates. Which activation function is it?. sigmoid. hiperbolic tangent (tanh). Rectified Linear Unit (ReLU). Leaky ReLU. Which activation function is it?. sigmoid. hiperbolic tangent (tanh). Rectified Linear Unit (ReLU). Leaky ReLU. Which activation function is it?. sigmoid. hiperbolic tangent (tanh). Rectified Linear Unit (ReLU). Leaky ReLU. Which activation function is it?. sigmoid. hiperbolic tangent (tanh). Rectified Linear Unit (ReLU). Leaky ReLU. Why is it important to transform the features so they may end up centered into 0? (select incorrect). Maintains input balanced around 0, which helps prevent neuron activations from skewing towards positive or negative values. It facilitates more balanced weight updates, as gradients do not skew toward very high or very low values. It helps to avoid the vanishig gradient problem. To bring all numerical features to the same scale to achieve consistency. En el contexto del descenso de gradiente estocástico (SGD) con mini-lotes (mini-batches), ¿cuál es la relación teórica y práctica recomendada entre el tamaño del mini-lote B y la tasa de aprendizaje (learning rate) ϵ, según el documento?. B debe ser siempre igual al tamaño del conjunto de entrenamiento (Batch Gradient Descent) para garantizar la convergencia al mínimo global en funciones no convexas. Al aumentar B, generalmente se puede permitir un ligero aumento en epsilon debido a la reducción de la varianza en el estimador del gradiente. Al aumentar B, se debe disminuir epsilon proporcionalmente para reducir la varianza del estimador del gradiente. El valor de B no tiene impacto en la elección de epsilon; son hiperparámetros ortogonales que deben optimizarse de forma totalmente independiente. El paper argumenta que la 'Búsqueda Aleatoria' (Random Search) de hiperparámetros es superior a la 'Búsqueda en Rejilla' (Grid Search) en espacios de alta dimensión. ¿Cuál es la razón principal citada?. La dimensionalidad efectiva de los hiperparámetros suele ser baja; Random Search explora más valores únicos para los hiperparámetros importantes que Grid Search con el mismo presupuesto computacional. Grid Search requiere diferenciabilidad de la función de pérdida respecto a los hiperparámetros. Random Search es determinista y permite una reproducibilidad más sencilla que Grid Search. Random Search garantiza encontrar el mínimo global, mientras que Grid Search se atasca en mínimos locales. E tamaño del mapa de características es [N, C, H, W] --> N representa la muestra, C representa el número de canales, H indica la altura, y W el ancho. A. B. C. D. What is the advantage of stochastic gradient descent over batch gradient descent?. Converges more easily than batch gradient descent. More stable than batch gradient descent. Faster than batch gradient descent. When does an epoch get completed?. When every point in the training set (N) has already been used. When the parameters were updated once. When the loss reaches a minimum. training set (N). Stochastic gradient descent. Batch gradient descent. Mini batch gradient. Associate. Right. Middle. Left. |





