RNAP Tema 2

COMENTARIOS

ESTADÍSTICAS

RÉCORDS

REALIZAR TEST

Título del Test:

RNAP Tema 2

Descripción:
RNAP Tema 2

Autor:

mmmmmmmmmm

OTROS TESTS DEL AUTOR

Fecha de Creación: 2026/06/02

Categoría: Otros

Número Preguntas: 10

Valoración:

(0)

COMPARTE EL TEST

Nuevo Comentario

Comentarios
NO HAY REGISTROS

Temario:

Marca las respuestas verdaderas sobre el algoritmo stochastic gradient descent: Seleccione una o más de una: A. En SGD obtenemos una estimación del gradiente. Si bien el gradiente no es exacto, la dirección de este es más o menos correcta, de modo que el proceso de minimización todavía funciona. B. El tamaño de la batch m cuanto más pequeño, mejor para acelerar el entrenamiento. De hecho es buena idea usar valores de m como 1, 2 o 3. C. La elección de m afecta a la velocidad de entrenamiento de nuestra red neuronal. D. Hay que elegir m con un balance, de modo que la aproximación al gradiente sea buena, pero no necesitemos utilizar una gran cantidad de puntos del dataset. A, B, C. B, C, D. A, C, D. A, B, D.

Seleccionar un motivo por el que en SGD utilizamos batches aleatorias hasta agotar todos los training examples del dataset (completar una epoch), en vez de utilizar siempre elementos al azar, es decir, sin la necesidad de utilizar todos los training examples del dataset antes de repetir elementos: Programar una lógica de muestreo con reemplazamiento es más difícil y computacionalmente costoso. Una estimación utilizando elementos siempre al azar es una estimación incorrecta y la red neuronal nunca llegaría a aprender nada. Todos los training examples del dataset son importantes y poseen una variabilidad que la red neuronal tiene que saber explicar. Al forzar a la red a entrenar con todos ellos, permitimos que todos estos datos sean tomados en cuenta.

Para aplicar gradient descent, la función de coste tiene que ser (marca la respuesta correcta): Diferenciable. Integrable. Contener cuadrados de valores. Convexa.

Si aplicamos un valor demasiado grande de learning rate (marca la respuesta correcta): La red neuronal aprendería y lo haría de manera más rápida. La red neuronal aprendería igualmente, el efecto de la learning rate no es realmente importante. La red neuronal podría no aprender, ya que SGD acabaría convergiendo en un máximo en vez de en un mínimo. La red neuronal podría no aprender. La aproximación local de la derivada deja de tener efecto y podríamos overshoot a un punto lejano donde el valor de la función es de hecho mayor.

Si un dataset tiene 10 000 puntos y utilizamos batches de 10 examples para entrenar una red neuronal (marca la respuesta correcta): Una epoch o época de entrenamiento consiste en 10 steps. Una epoch o época de entrenamiento consiste en 100 steps. Una epoch o época de entrenamiento consiste en 1000 steps. Una epoch o época de entrenamiento consiste en 10 000 steps. Ninguna de las anteriores.

Las funciones de coste o loss functions (marca todas las respuestas correctas): Seleccione una o más de una: A. Definen un valor de error que queremos minimizar. B. Definen un valor de coste que queremos maximizar. C. Son siempre variaciones de la función mean squared error. D. Implican un objetivo distinto a la hora de entrenar una red neuronal y, por tanto, son una parte importante a definir en un problema de machine learning. E. Son poco importantes a la hora de entrenar. A, C, D. C, E. D, B. A, D.

Durante el algoritmo de backpropagation (marca la respuesta correcta): No es necesario almacenar los valores de salida de cada nodo, solo nos interesa el valor final de la función de coste tras ejecutar el forward pass. Guardamos los valores de salida de cada nodo, ya que son necesarios para el cálculo de gradientes durante el backward pass. Guardamos los valores de salida de cada nodo, ya que son necesarios para aplicar gradient descent, pero no son usados en el cálculo de gradientes. Ninguna de las anteriores.

Marca todas las respuestas correctas acerca del algoritmo de backpropagation: Es una forma eficiente de calcular los gradientes necesarios para redes neuronales arbitrariamente complejas. Se llama backpropagation ya que el gradiente se propaga de manera recursiva hacia atrás. Fue un gran avance, ya que calcular fórmulas de los gradientes analíticamente se vuelve muy complejo para las redes neuronales. Todas son correctas.

En una operación suma q = x + y + z, si el gradiente propagado de salida es 5: El gradiente es 15 en todas las variables. El gradiente es 1 en todas las variables. El gradiente es 5 en todas las variables. No es posible saber el valor del gradiente con la información suministrada.

El número de neuronas a utilizar en las hidden layer (marca las respuestas correctas): Seleccione una o más de una: A. Suele estar comprendido entre 10 y 100 neuronas. Menos es insuficiente y más es superfluo. B. Puede ser obtenido mediante una búsqueda de hiperparámetros. C. A más neuronas, más gradientes a calcular y, por tanto, más requisitos de memoria y tiempo de ejecución. D. No es muy importante a la hora de entrenar una red neuronal. E. A más neuronas, más capacidad de representación que tiene la red. A, C, D. C, D, E. B, C, E. A, C, E.

Denunciar Test