Pytorch Fundamentals - Gradient Descent

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

Pytorch Fundamentals - Gradient Descent

Descripción:
Pytorch Fundamentals - Gradient Descent

Autor:

ahg

OTROS TESTS DEL AUTOR

Fecha de Creación: 2025/11/18

Categoría: Informática

Número Preguntas: 32

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

In a simple linear regression model, given that a feature (x) and a label (y) has been provided, the linear equation of this model would be y = b + wx where b and w are the terms: Slope, intercept. Intercept, slope. Bias, input. Input, bias.

You have been provided the following data of 4 training examples (N): x y 2 1 4 2 6 3 8 4 Consider the linear regression model: y = b + wx. What are the values of b and w that you would expect to obtain upon solving this example?. b=0, w=0.5. b=1, w=0. b=0.5, w=0. b=0, w=1.

Select the INcorrect sentence. The train-validation-test split should always be the first thing you do. Neither preprocessing, nor transformations should happen before. The train-validation-test split should always be the first thing you do after preprocessing, or transformations. Then you can split the data. There is one exception to the “always shuffle” rule though, time series problems, where shuffling can lead to data leakage.

What characterizes stochastic gradient descent?. Using a single data point (n=1) to compute the loss. Using all points (N) in the training set to compute the loss. Using n points (between 1 and N) to compute the loss.

The following is a table consisting of the labels and the predicted values of some data points: Predictions Labels 15 3 20 8 5 4 5 6 What would be the MSE loss of the values present in the above table?. 71.5. 72.5. 72.0.

which one of the two dashed curves, red (w changes; b is constant) or black (b changes; w is constant), yields the biggest changes in loss when we modify the changing parameter?. w changes; b is constant. b changes; w is constant.

¿Qué sucede si usamos Batch Gradient Descent con un conjunto de datos muy grande?. El entrenamiento será muy rápido, ya que usa todos los datos de una vez. El entrenamiento será lento debido al costo computacional de calcular la pérdida y los gradientes en todo el conjunto de datos. La convergencia será muy estable, pero rápida. No habrá diferencias en el tiempo de entrenamiento en comparación con otros métodos.

En el contexto de descenso de gradiente, ¿qué significa "sacrificar estabilidad por velocidad"?. Utilizar más datos para cada iteración para asegurar una mayor estabilidad en el aprendizaje. Elegir un subconjunto más pequeño de datos para cada iteración, lo que reduce el tiempo de cálculo pero puede introducir mayor variabilidad en los gradientes. Asegurarse de que el modelo converja lentamente para evitar problemas. Evitar cualquier tipo de aleatorización en el entrenamiento.

¿Qué tipo de descenso de gradiente podría ser más adecuado para un modelo con un conjunto de datos muy grande?. Batch Gradient Descent. Stochastic Gradient Descent. Mini-Batch Gradient Descent. Ninguno de los anteriores.

¿Cuál de los siguientes tipos de descenso de gradiente es más eficiente en términos de tiempo de cálculo por iteración?. Batch Gradient Descent. Stochastic Gradient Descent. Mini-Batch Gradient Descent. Todos son igualmente eficientes.

Cuál es la principal diferencia entre Stochastic Gradient Descent (SGD) y Batch Gradient Descent?. SGD usa solo un dato a la vez para calcular la pérdida y los gradientes, mientras que el Batch Gradient Descent usa todos los datos del conjunto. SGD siempre usa el mismo conjunto de datos para cada iteración, mientras que el Batch Gradient Descent elige aleatoriamente el conjunto de datos en cada iteración. Batch Gradient Descent es más rápido que SGD, porque calcula la pérdida y los gradientes de una sola vez. No hay diferencia; ambos métodos se aplican de la misma manera.

¿Cuál de las siguientes afirmaciones describe mejor el comportamiento de la pérdida en el contexto del entrenamiento de modelos?. La pérdida se calcula para un solo punto de datos en cada iteración del entrenamiento. La pérdida siempre se calcula usando todos los puntos de datos del conjunto de entrenamiento. La pérdida es un promedio de los errores de todos los puntos de datos, y se utiliza para ajustar los parámetros del modelo. La pérdida no tiene nada que ver con la diferencia entre predicción y etiqueta.

¿Cuál es la principal diferencia entre error y pérdida?. El error se refiere a la diferencia entre la predicción del modelo y el valor real para un solo punto de datos, mientras que la pérdida es un valor agregado para todos los puntos de datos. El error y la pérdida son lo mismo; ambos se calculan para todo el conjunto de datos. El error es solo para datos de validación, mientras que la pérdida solo se calcula en los datos de entrenamiento. La pérdida mide la diferencia entre las predicciones y las etiquetas, mientras que el error solo se calcula para el primer dato.

Observa el descenso del gradiente y la explicación visual de la derivada which curve (red or black) do you like best to reduce the loss?. It should be the black one, but it is not straightforward. factors like noise, step size, and local minima make this choice complex. The red one.

Observa el descenso del gradiente y la explicación visual de la derivada Steeper curves have bigger gradients, and therefore, yield the biggest changes in the loss. True. False.

Observa el descenso del gradiente y la explicación visual de la derivada In the curves given above, which curve (red (w changes; b is constant) or black (b changes; w is constant)) yields the biggest changes in loss when we modify the changing parameter?. Red. Black.

¿Qué describe un gradiente respecto a un parámetro como w o b? y = b + w*x + epsilon. La diferencia entre la predicción y el valor real. Cuánto cambia la pérdida cuando cambias ligeramente un parámetro manteniendo el resto constante. La dirección en la que apunta el vector de pesos. El valor absoluto del error promedio.

¿Por qué decimos que el gradiente es una “derivada parcial”?. Porque se calcula con respecto a todos los parámetros a la vez. Porque se calcula respecto de un solo parámetro mientras los demás se mantienen fijos. Porque involucra integrales. Porque no puede calcularse en redes profundas.

Si el gradiente de b tiene valor absoluto mayor que el gradiente de w, ¿qué significa geométricamente?. La curva de la pérdida respecto a b es más plana. Modificar b reduce más la pérdida que modificar w. El modelo no está aprendiendo. w no tiene influencia en la predicción.

¿Por qué una derivada es una razón de cambio en el límite?. Porque la derivada es exactamente el cociente de incrementos finitos. Porque es la razón entre cambios infinitamente pequeños, lo que da la pendiente exacta. Porque no puede calcularse de otra manera. Porque así lo define PyTorch.

¿Por qué el gradiente de MSE es cero en el mínimo de la función de pérdida?. Porque el modelo dejó de aprender. Porque la pendiente de la superficie de pérdida se vuelve plana en el mínimo. Porque los pesos se hacen muy pequeños. Porque la red no tiene más capas para propagar el error.

¿Cuál es la relación entre el “learning rate” y el gradiente?. El gradiente determina la dirección; el learning rate determina la magnitud del paso. El learning rate cambia los gradientes. Los gradientes solo se usan si el learning rate es alto. No hay relación entre ambos.

¿Qué representa realmente “backpropagation”?. La técnica para actualizar los pesos. El cálculo eficiente de derivadas parciales usando la regla de la cadena, desde la última capa hasta la primera. Una estrategia de inicialización. Cómo se calcula el error de clasificación.

¿Por qué usar la regla de la cadena permite entrenar redes profundas?. Porque permite calcular las derivadas de todas las capas sin re-derivar la función completa. Porque hace más pequeños los gradientes. Porque evita el overfitting. Porque elimina la necesidad de funciones de activación.

¿Qué significa que el gradiente sea negativo?. Que debemos aumentar el parámetro. Que debemos disminuir el parámetro. Que hay un error en el modelo. Que la pérdida es negativa.

¿Cuál es la relación entre los gradientes y la estabilidad del entrenamiento?. A. Gradientes grandes → entrenamiento estable. B. Gradientes pequeños → modelo se atasca (plateau). C. Gradientes demasiado grandes → explosión. B y C son correctas.

¿Cómo se actualizan los parámetros en un modelo de Deep Learning durante el entrenamiento?. Usando los gradientes para actualizar los parámetros sin importar la tasa de aprendizaje. Los parámetros se actualizan solo cuando la pérdida alcanza un valor mínimo. Los parámetros se actualizan utilizando los gradientes y la tasa de aprendizaje, que controla el tamaño del paso. Los parámetros no se actualizan hasta que se calcule el gradiente para todos los datos.

¿Qué representa la tasa de aprendizaje (eta = η) en el proceso de actualización de parámetros?. Determina la cantidad de datos utilizados en cada iteración. Es el factor multiplicador que ajusta el tamaño del paso al actualizar los parámetros. Controla la cantidad de capas en el modelo. Establece el número de épocas durante el entrenamiento.

¿Qué efecto tiene una tasa de aprendizaje demasiado alta en el proceso de optimización?. Hace que el modelo converge más rápido hacia el mínimo de la función de pérdida. No afecta el proceso de optimización. Puede causar oscilaciones o que el modelo no converja correctamente al mínimo global. Hace que el gradiente sea siempre cero, evitando que el modelo aprenda.

¿Cómo se interpreta la actualización de parámetros en el contexto de minimizar la función de pérdida?. Los parámetros se actualizan en la dirección del gradiente para aumentar la pérdida. Los parámetros se actualizan en la dirección opuesta al gradiente para minimizar la pérdida. Los parámetros no se actualizan hasta que se haya completado todo el entrenamiento. Los parámetros se actualizan de manera aleatoria para explorar diferentes configuraciones.

¿Qué significa que un modelo "converja" durante el entrenamiento?. Que el modelo ha dejado de actualizar sus parámetros. Que el modelo sigue mejorando, pero con pasos más pequeños en cada iteración. Que el modelo ha alcanzado un mínimo global de la función de pérdida. Que el modelo no cambia su precisión.

We can also interpret this a bit differently; each parameter is going to have its value updated by a constant value, eta (the learning rate). But this constant is going to be weighted by how much that parameter contributes to minimizing the loss (its gradient). True. False.

Denunciar Test

▲