Td_2021
![]() |
![]() |
![]() |
Título del Test:![]() Td_2021 Descripción: Cuestiones examenes test otros años asignatura TD uc3m |




Comentarios |
---|
NO HAY REGISTROS |
En Inferencia Bayesiana no es posible ajustar los hiperparámetros mediante validación cruzada, por lo que ha de recurrirse a la maximización de la verosimilitud marginal. Verdadero. Falso. k-NN puede considerarse un método de regresión paramétrica ya que requiere el ajuste de un parámetro (k). Veradero. Falso. La regresión mediante procesos gaussianos proporciona una estimación de la confianza del propio modelo acerca de cada una de sus predicciones. Verdadero. Falso. Una función de covarianzas proporciona un criterio para medir la similitud existente entre dos matrices de covarianzas diferentes. Veradero. Falso. Indique cuáles de los siguientes clasificadores tienen siempre fronteras de clasificación lineales. 1-NN. Clasificador basado en un modelo de regresión logística: P(Y|x,w) =f(w|x),siendo f la función logística. Máquina de vectores soporte con kernel k(x,x')=xT|x. Máquina de vectores soporte con kernel k(x,x')=exp(-xT|x). La lematización (stemming) consiste en eliminar de una colección de documentos las palabras que no proporcionan ninguna información semántica relevante para el modeladode tópicos. Verdadero. Falso. Permutar el orden de las palabras de un documento no tienen ninguna influencia en su representación como bolsa-de-palabras. Verdadero. Falso. LDA se basa en un modelo generativo que caracteriza la generación de todos los documentos de una colección. Por lo tanto, si el modelo generativo se ejecutase múltiples veces,en todas las ocasiones se obtendría la misma colección de documentos. Verdadero. Falso. Al usar LDA cada palabra del vocabulario puede pertenecer como máximo a un tópico. Verdadero. Falso. De acuerdo al modelo generativo de LDA, las proporciones de tópicos calculadas por el algoritmo suman necesariamente 1 para cada documento de la colección. Verdadero. Falso. k-NN puede considerarse un método de regresión paramétrica ya que requiere el ajustede un parámetro (k). Verdadero. Falso. Considere un conjunto de datos de entrenamiento para un problema de regresión unidimensional, {xi, si}=1 xi,si ∈ R. Se puede afirmar que: El error de entrenamiento del algoritmok-NN es no decreciente con el valor de k. Verdadero. Falso. Considere un conjunto de datos de entrenamiento para un problema de regresión unidimensional, {xi, si}=1 xi,si ∈ R. Se puede afirmar que: El error cuadrático promedio de entrenamiento de un modelo de regresión lineal least squares no puede crecer al aumentar el número de muestras de entrenamiento disponibles. Verdadero. Falso. Un tópico en Latent Dirichlet Allocation (LDA) se define como una colección de documentos con una temática común. Verdadero. Falso. Considere un conjunto de datos de entrenamiento para un problema de regresión unidimensional, {xi, si}=1 xi,si ∈ R. Se puede afirmar que: Para una función analítica de regresión determinada, sw(x), la inferencia bayesiana, gracias a su enfoque probabilístico, proporciona el menor error cuadrático promedio posible en el conjunto de entrenamiento. Verdadero. Falso. Considere un conjunto de datos de entrenamiento para un problema de regresión unidimensional, {xi, si}=1 xi,si ∈ R. Se puede afirmar que: La inferencia bayesiana es un método probabilístico, y como tal no requiere ajustar hiperparámetros. Verdadero. Falso. Si los datos de entrenamiento son linealmente separables, una máquina de vectores soporte(SVM) lineal puede garantizar cero errores de clasificación en el conjunto de entrenamiento. Verdadero. Falso. Si los datos de entrenamiento son linealmente separables, una SVM lineal puede garantizar cero errores de clasificación en el conjunto de test. Verdadero. Falso. Si los datos no son linealmente separables, se pueden conseguir cero errores de clasificación sobre el conjunto de entrenamiento utilizando variables de holgura (slack variables) y una SVM lineal. Verdadero. Falso. La elección del parámetro C del clasificador SVM permite graduar el número de vectores soporte, pero no afecta a las tasas de error de clasificación sobre el conjunto de test. Verdadero. Falso. Una de las diferencias fundamentales entre los algoritmos de agrupamiento k-medias y clustering espectral, es que el primero emplea representantes o centroides para cada uno de los grupos, y el segundo no. Verdadero. Falso. Conviene fijar un número máximo de iteraciones al aplicar k-medias, porque de lo contrario el algoritmo podría no converger en tiempo finito. Verdader. Falso. En clustering espectral, únicamente se pueden identificar los grupos a partir de la matriz de afinidad cuando estos vienen ordenados según la clase real a la que pertenece cadadato. Verdadero. Falso. El algoritmo de clustering espectral se basa en la identificación de los autovectores asociados a los mayores autovalores del Laplaciano de la matriz de afinidad. Verdadero. Falso. Considere un conjunto de datos de entrenamiento {xi,si}=1 xi,si ∈ R. Se desea aplicar un algoritmo de regresión paramétrica para predecir s a partir de x. Para ello, se ofrecen dos alternativas: (1) obtener el coeficiente wLS de regresión de mínimos cuadrados (2) suponer que las observaciones xi son i.i.d. (independientes e idénticamente distribuidas) y se han generado a partir de si mediante xi=wsi+ei, siendo ei una variable de ruido aleatorio de distribución pE(e), y calcular el estimador wML de máxima verosimilitud. Se puede afirmar que: Si pE(e) es gaussiana de media nula,wLS=wML. Verdadero. Falso. Considere un conjunto de datos de entrenamiento {xi,si}=1 xi,si ∈ R. Se desea aplicar un algoritmo de regresión paramétrica para predecir s a partir de x. Para ello, se ofrecen dos alternativas: (1) obtener el coeficiente wLS de regresión de mínimos cuadrados (2) suponer que las observaciones xi son i.i.d. (independientes e idénticamente distribuidas) y se han generado a partir de si mediante xi=wsi+ei, siendo ei una variable de ruido aleatorio de distribución pE(e), y calcular el estimador wML de máxima verosimilitud. Se puede afirmar que: Si pE(e) no es gaussiana,wLS=wML. Verdadero. Falso. Considere un conjunto de datos de entrenamiento {xi,si}=1 xi,si ∈ R. Se desea aplicar un algoritmo de regresión paramétrica para predecir s a partir de x. Para ello, se ofrecen dos alternativas: (1) obtener el coeficiente wLS de regresión de mínimos cuadrados (2) suponer que las observaciones xi son i.i.d. (independientes e idénticamente distribuidas) y se han generado a partir de si mediante xi=wsi+ei, siendo ei una variable de ruido aleatorio de distribución pE(e), y calcular el estimador wML de máxima verosimilitud. Se puede afirmar que: Para calcular wML es necesario conocer la distribución a priori de w, pW(w). Verdadero. Falso. Considere un conjunto de datos de entrenamiento {xi,si}=1 xi,si ∈ R. Se desea aplicar un algoritmo de regresión paramétrica para predecir s a partir de x. Para ello, se ofrecen dos alternativas: (1) obtener el coeficiente wLS de regresión de mínimos cuadrados (2) suponer que las observaciones xi son i.i.d. (independientes e idénticamente distribuidas) y se han generado a partir de si mediante xi=wsi+ei, siendo ei una variable de ruido aleatorio de distribución pE(e), y calcular el estimador wML de máxima verosimilitud. Se puede afirmar que: El error cuadrático promedio del predictorˆs=wMLx, evaluado sobre el conjunto deentrenamiento, es cero. Verdadero. Falso. Si los datos de entrenamiento son linealmente separables, un clasificador basado en k-NN producirá una frontera lineal. Verdadero. Falso. Si los datos de entrenamiento son linealmente separables, un clasificador basado en k-NN tendrá siempre una tasa de errores nula sobre el conjunto de entrenamiento, para cualquier valor de k. Verdadero. Falso. En una SVM lineal aplicada a un conjunto de datos linealmente separable, el tamaño del margen es inversamente proporcional a la norma del vector de pesos,w. Verdadero. Falso. Considérese la clasificación mediante SVM en un caso no separable, para el que se introducen slack variables ξi, cada una de ellas asociada a una muestra de entrenamiento diferente. El valor de ξi únicamente es mayor de 0 para aquellas muestras de entrenamiento que se clasifican erróneamente. Verdadero. Falso. La eliminación de stopwords durante el preprocesado de los documentos de un corpus documental tiene como principal objetivo suprimir palabras poco frecuentes que aparecenen muy pocos documentos de la colección. Verdadero. Falso. En el contexto del Procesamiento de Lenguaje Natural, los processos de Stemming y lema-tización pueden considerarse complementarios, por lo que suele aplicarse la lematización sobre los resultados del stemming. Verdadero. Falso. De acuerdo al modelo generativo del algoritmo LDA, la suma de las componentes del vector θd de cada documento es siempre 1. Verdadero. Falso. De acuerdo al modelo generativo del algoritmo LDA, la suma de las componentensiésimas de los vectores βk que caracterizan a todos los tópicos es siempre 1, i.e.,∑kβk,i= 1,donde la suma se realiza sobre todos los tópicos del modelo. Verdadero. Falso. Considere un conjunto de datos de entrenamiento,D={xi,si} i=1 xi,si ∈ R, generados apartir de un modelo si=w1xi+w2x2i+ei, donde w1 y w2 son constantes desconocidas y ei son muestras i.i.d. de ruido aleatorio de distribución pE(e). Considere asi mismo, que se dispone de un segundo conjunto de datos de validación libres de ruido, i.e.,Dt={x′i,s′i}`′i=1, donde s′i=w1x′i+w2x′2i. Se puede afirmar que: La solución LS de w1 y w2, w1LS y w2LS, calculada sobre los datos de entrenamiento, proporciona un error cuadrático promedio nulo medido sobre los datos de validación. Verdadero. Falso. Considere un conjunto de datos de entrenamiento,D={xi,si} i=1 xi,si ∈ R, generados apartir de un modelo si=w1xi+w2x2i+ei, donde w1 y w2 son constantes desconocidas y ei son muestras i.i.d. de ruido aleatorio de distribución pE(e). Considere asi mismo, que se dispone de un segundo conjunto de datos de validación libres de ruido, i.e.,Dt={x′i,s′i}`′i=1, donde s′i=w1x′i+w2x′2i. Se puede afirmar que: El cálculo de los estimadores de máxima verosimilitud de w1 y w2, w1ML y w2ML, no requiere conocer la densidad de probabilidad del ruido,pE(e). Verdadero. Falso. Considere un conjunto de datos de entrenamiento,D={xi,si} i=1 xi,si ∈ R, generados apartir de un modelo si=w1xi+w2x2i+ei, donde w1 y w2 son constantes desconocidas y ei son muestras i.i.d. de ruido aleatorio de distribución pE(e). Considere asi mismo, que se dispone de un segundo conjunto de datos de validación libres de ruido, i.e.,Dt={x′i,s′i}`′i=1, donde s′i=w1x′i+w2x′2i. Se puede afirmar que: El cálculo de los estimadores de máxima verosimilitud de w1 y w2, w1MAP y w2MAP, no requiere conocer la densidad de probabilidad del ruido,pE(e). Verdadero. Falso. Considere un conjunto de datos de entrenamiento,D={xi,si} i=1 xi,si ∈ R, generados apartir de un modelo si=w1xi+w2x2i+ei, donde w1 y w2 son constantes desconocidas y ei son muestras i.i.d. de ruido aleatorio de distribución pE(e). Considere asi mismo, que se dispone de un segundo conjunto de datos de validación libres de ruido, i.e.,Dt={x′i,s′i}`′i=1, donde s′i=w1x′i+w2x′2i. Se puede afirmar que: Si pE(e) sigue una distribución gaussiana, los estimadores de máxima verosimilitud de w1 y w2 coinciden con la solución LS (i.e.,wi,LS=wi,ML,i=1,2). Verdadero. Falso. En un problema de clasificación binaria, se dispone de un conjunto de entrenamiento con 1000 muestras distintas,{(xi,yi),i= 1,...,N} (esto es, xi!=xj, para cualesquiera i!=j), todas de la clase 1, excepto una, de la clase 0. Se puede afirmar que: Un clasificador 3-NN asignará cualquier entrada a la categoría 1. Un clasificador basado en regresión logística asignará cualquier entrada a la categoría 1. Un clasificador SVM lineal tendrá cero errores de entrenamiento. Un clasificador 1-NN tendrá cero errores de entrenamiento. El paso de reestimación de centroides del algoritmo k-medias reduce (o, al menos, no aumenta) la distorsión cuadrática total. El paso de reasignación de muestras del algoritmo k-medias reduce (o, al menos, no aumenta) la distorsión cuadrática total. El algoritmo k-medias converge en un número finito de pasos. El algoritmo k-medias converge siempre al agrupamiento que minimiza la distorsión cua-drática total. En una iteración del algoritmo k-means, la distorsión cuadrática total puede aumentar. La mínima distorsión cuadrática total que puede alcanzar el algoritmo k-means decrece al aumentar N. Cuando N=K, la mínima distorsión cuadrática total que puede alcanzar el algoritmo k-means es nula. El algoritmo de clustering espectral permite obtener un agrupamiento con menor distorsión cuadrática total que la menor distorsión cuadrática alcanzable por el algoritmo k-medias con el mismo número de grupos. La log-verosimilitud de entrenamiento del estimador ML aumenta (o, al menos, no disminuye) con el grado del polinomio, es decir Li(wML,i)≤Li+1(wML,i+1). La log-verosimilitud de entrenamiento del estimador MAP aumenta (o, al menos, no disminuye) con el grado del polinomio, es decir, Li(wMAP,i)≤Li+1(wMAP,i+1). La log-verosimilitud de validación del estimador ML aumenta (o, al menos, no disminuye)con el grado del polinomio, es decir, L′i(wML,i)≤L′i+1(wML,i+1). La densidad de probabilidad a posteriori del estimador MAP aumenta (o, al menos, nodisminuye) con el grado del polinomio, es decir, Pi(wMAP,i|D)≤Pi+1(wMAP,i+1|D). M1NN≥MSVM. MSVM≥MRL. M1NN≥MRL. La tasa de error de entrenamiento de los tres clasificadores es 0. Sean X y Xt las matrices que contienen los datos de entrada de entrenamiento y de test de un problema de aprendizaje supervisado (regresión o clasificación), de manera que cada dato se dispone como una fila de dichas matrices, el proceso de normalización garantiza que todas las columnas de ambas matrices tengan media nula. Verdadero. Falso. Dado que el objetivo de la validación cruzada es el ajuste de hiperparámetros, dicho procedimiento únicamente se aplica en los métodos de regresión o clasificación paramétricas. Verdadero. Falso. Para determinar el estimador de máxima verosimilitud de los parámetros w de un modelo de regresión, es necesario conocer la distribución a priori p(w) de dichos parámetros. Verdadero. Falso. En un problema de regresión con datos de entrenamiento D={x(k),s(k)} en el que se plantea una solución bayesiana con p(x|s)∼ N(w>z,σ2I) y p(w)∼ N(0,I), existe solución analítica para el estimador de máximo a posteriori de w. Verdadero. Falso. Un clasificador SVM no lineal tiene cero errores de entrenamiento. Un clasificador SVM lineal tiene cero errores de entrenamiento. Si los datos son linealmente separables y la SVM es lineal, debe existir al menos un vector soporte de cada categoría. Si los datos son linealmente separables, la SVM lineal obtiene el clasificador de máximo margen, y ninguna SVM no lineal puede obtener un margen mayor. Se dispone de un conjunto de K muestras de entrenamiento, D={(xk,sk),0≤k < K−1} y otro de K′ muestras de validación, D′={(xk,sk), K≤k < K+K′−1}, relativos a un problema de regresión unidimensional. Se puede afirmar que: Verdadero. Falso. Se dispone de un conjunto de K muestras de entrenamiento, D={(xk,sk),0≤k < K−1} y otro de K′ muestras de validación, D′={(xk,sk), K≤k < K+K′−1}, relativos a un problema de regresión unidimensional. Se puede afirmar que: Verdadero. Falso. Se dispone de un conjunto de K muestras de entrenamiento, D={(xk,sk),0≤k < K−1} y otro de K′ muestras de validación, D′={(xk,sk), K≤k < K+K′−1}, relativos a un problema de regresión unidimensional. Se puede afirmar que: Verdadero. Falso. Se dispone de un conjunto de K muestras de entrenamiento, D={(xk,sk),0≤k < K−1} y otro de K′ muestras de validación, D′={(xk,sk), K≤k < K+K′−1}, relativos a un problema de regresión unidimensional. Se puede afirmar que: Verdadero. Falso. Considere la resolución de un problema de clasificación logística con función de log-verosimilitud negativa NNL(w).Se puede afirmar que: El uso de gradiente estocástico garantiza convergencia a la solución de máxima verosimilitud con independencia de la existencia de máximos o mínimos locales en NNL(w),siempre que el número de iteraciones empleado sea suficientemente elevado. Verdadero. Falso. Considere la resolución de un problema de clasificación logística con función de log-verosimilitud negativa NNL(w).Se puede afirmar que: Si NNL(w) es convexa, el algoritmo de Newton permite la convergencia al mínimo dedicha función de coste en un único paso (empleando paso de adaptación unitario). Verdadero. Falso. Considere la resolución de un problema de clasificación logística con función de log-verosimilitud negativa NNL(w).Se puede afirmar que: Si asumimos una distribución a priori para el vector de pesos, p(w), la solución de máximo a posteriori, wMAP, presenta además un mayor valor de la verosimilitud evaluada sobre el conjunto de datos de entrenamiento que la solución ML,wML. Verdadero. Falso. Considere la resolución de un problema de clasificación logística con función de log-verosimilitud negativa NNL(w).Se puede afirmar que: El método de Newton para minimización de NNL(w) incurre en mayor coste computacional por iteración que los métodos de gradiente y de gradiente estocástico. Verdadero. Falso. Considere un problema de modelado de tópicos en el que se extraen un total de 100 tópicos sobre un corpus de 10000 documentos empleando LDA (Latent Dirichlet Allocation). Se puede afirmar que. Cada tópico queda caracterizado por un vector βk de longitud 10000 (igual al número de documentos del corpus). Cada documento queda caracterizado por un vector θd de longitud 100 (igual al númerode tópicos del modelo). La suma de las componentes del vector anterior θd siempre es igual a 1. El modelo generativo del LDA asume que todas las apariciones de una palabra del voca-bulario han de ser generadas por un mismo tópico. Si la distribucióna priori de w es N(0,I), necesariamente se cumple ‖wMAP‖ ≤ ‖wML‖. Existe una expresión analítica cerrada para wML; sin embargo, el cálculo de wMAP requiere emplear algún procedimiento de optimización. La aplicación del algoritmo de gradiente sobre la función objetivo de la formulación primal de la SVM converge a wSVM. Con independencia del valor de C, la solución wSVM siempre puede escribirse como combinación lineal de las muestras del conjunto de entrenamiento. La estimación ML de w= [w1,w2]T puede obtenerse mediante una expresión cerrada independientemente de la distribución de ruido. La estimación ML de w= [w1,w2]T coincide con la solución de mínimo error cuadrático medio independientemente de la distribución de ruido. La distribución a posteriori de w podría obtenerse a partir de la distribución del ruido y de la distribución a priori de w. El cálculo de la distribución a posteriori de w requiere conocer la distribución de las muestras de entrada,pX(x). El algoritmo de descenso por gradiente permite determinar wd de forma exacta en un número finito de iteraciones, para cualquier valor de d. La log-verosimilitud negativa NLL(wd), calculada con los datos de entrenamiento, nunca crece al aumentar d. La log-verosimilitud negativa NLL(wd), calculada con los datos de test, nunca crece al aumentar d. El número de errores de test puede aumentar al aumentar d. Las componentes de Tlsi pueden tomar valores negativos. Cada columna de Dlda tiene componentes no negativas que suman 1. B=Tlda·DTlda. B=Tlsi·DTlsi. a Verdadero. b Verdadero. c Verdadero. d Verdadero. X′·1= 0, siendo1un vector columna de todo unos. La normalización no afecta a las prestaciones del algoritmo k-NN, porque los k vecinos más próximos de una muestra son los mismos, independientemente de que se aplique la normalización o no. wML=w′ML. El error cuadrático total de entrenamiento de los modelos de regresión lineal no depende de que los datos estén normalizados o no. El clasificador baseline que asigna cualquier muestra a la clase mayoritaria del conjunto de entrenamiento, tiene una tasa de acierto (medida sobre el conjunto de test) del 20%. La matriz de confusión correspondiente al clasificador baseline tiene cuatro columnas con todos sus elementos nulos. El promedio de los elementos de la diagonal de C es igual a la tasa de acierto del clasificador (medida sobre el conjunto de test). Si se permutan las regiones de clasificación correspondientes a las clases 2 y 3, la nueva matriz de confusión se obtendría permutando las filas segunda y tercera de la matriz de confusión del clasificador de partida. |