Examen Práctico No Supervisado VIU
![]() |
![]() |
![]() |
Título del Test:![]() Examen Práctico No Supervisado VIU Descripción: Examen Práctico No Supervisado VIU |




Comentarios |
---|
NO HAY REGISTROS |
Siendo e y v los eigenvaslues y eigenvectores de una matriz lapaciana. ¿Cómo aplicamos la transformación de los datos en un clustering espectral?. eigen_0 = np.where(e < 10e-6)[0] Xnew = np.array(v[:, eigen_0]). eigen_0 = max(e) Xnew = np.array(v[:, eigen_0]). Xnew = np.array(v[:, e]). Ninguna de las anteriores es correcta. ¿Si quisiera obtener la homogeneidad del clustering que lineas de código debería evaluar? Donde digits.data son los datos de entrada, digits.target son etiquetas y clusters=kmeans.fit_predict(digits.data). from sklearn.metrics import cluster print('Homogeneidad =', cluster.homogeneity_score(digits.target, clusters)). from sklearn.metrics import cluster print('Homogeneidad =', cluster.homogeneity_score(digits.data, clusters)). from sklearn.metrics import cluster print('Homogeneidad =', cluster.homogeneity_score(digits.target, digits.data)). from sklearn.metrics import cluster print('Homogeneidad =', cluster.homogeneity_score(digits.target, kmeans.cluster_centers)). Siendo Z la salida de un clustering jerárquico Z = linkage(X, method=´average´, metric=´euclidean´), cuya salida representa: [idx1, idx2, distancia, número de muestras que une] siendo idx1 e idx2 el indice de los clusteres que une, sabiendo que el dataset tiene 150 muestras, ¿Cuál de las siguientes afirmaciones es correcta?. Siempre max(idx2) = 150. Siempre max(idx2) < 150. Puede ocurrir que max(idx2) > 150. Todas las anteriores son correctas. ¿Cómo podemos obtener un nuevo dato a partir del algoritmo GMM? Siendo X nuestro dataset: gmm=GaussianMixture(n_components=3).fit(X) nuevos_datos, label = gmm.predict_proba(X). gmm=GaussianMixture(n_components=3).fit(X) nuevos_datos, label = gmm.sample(1). gmm=GaussianMixture(n_components=3).fit(X) nuevos_datos, label = gmm.predict_proba(1). Todas las anteriores son correctas. Dado el siguiente código: pca = PCA(64) X_proj = pca.fit_transform(X) cumvar = np.cumsum(pca.explained_variance_ratio_) ¿Qué representa la variable cumvar?. La varianza explicada por cada una de las componentes de X. La varianza que hemos perdido al utilizar 64 componentes. La varianza explicada retenida haciendo uso de las 64 componentes principales. Ninguna de las anteriores. Dada la siguiente figura, que afirmación es correcta: Las líneas rojas representan la PCA que trata de minimizar el error de predicción. Las líneas azules representan la regresión lineal que tratan de minimizar el error de proyección de las muestras a las nuevas "bases". a y b son correctas. Ninguna de las anteriores. Queremos evaluar la métrica accuracy en nuestro clusters, para ellos debemos asignar el agrupamiento dado por el K-means las etiquetas reales. ¿Cuál sería el código necesario para llevarlo a cabo?. labels = np.zeros_like(clusters) for i in range(10): mask=(clusters == i) labels[mask] = mean(digits.target[mask])[0]. labels = np.zeros_like(clusters) for i in range(10): mask=(clusters == i) labels[mask] = mode(digits.target[mask])[0]. labels = np.zeros_like(clusters) for i in range(10): mask=(clusters == i) labels[mask] = max(digits.target[mask])[0]. Ninguna de las anteriores. Referente a los métodos de clustering probabilísticos, ¿cómo obtenemos el agrupamiento al que pertenece cada uno de los datos?. from sklearn.mixture import GaussianMixture gmm=GaussianMixture(n_components=3).fit(X) labels = gmm.predict(X). from sklearn.mixture import GaussianMixture gmm=GaussianMixture(n_components=3).fit(X) labels = np.argmax(gmm.predict_proba(X), axis=-1). a y b son ciertas. Ninguna de las anteriores es correcta. ¿Qué quiere decir la siguiente gráfica de valores de elgenvalores?. Tenemos tres componentes conexas. Tenemos siete componentes conexas. Solo tenemos una componente conexa. Ninguna de las anteriores es correcta. Dado el siguiente dendograma: 2,92. 5,74. 3,88. 5,74+2,92+3,88. Queremos realizar un clustering jerárquico sobre las base de datos X. Esta base de datos está formada por vectores de características binarias. ¿Cómo tendríamos que realizar el clustering?. Z = linkage(X, method=´average´, metric=´euclidean´). Z = linkage(X, method=´average´, metric=´cltyblock´). Z = linkage(X, method=´average´, metric=´hamming´). Ninguna de las anteriores. Dadas las siguientes represntaciones del algoritmo DBSCAN: De izquierda a derecha, sabiendo que se mantiene constante el parámetro epsilon: El número de puntos requeridos para que un punto sea nuclear es menor. El número de puntos requeridos para que en un punto sea nuclear se mantiene constante. El número de puntos requeridos para que un punto sea nuclear es mayor. Ninguna de las anteriores es correcta. ¿Cuántos clusters obtendré si utilizo fancy_dendrogram(Z, truncate_mode=´lastp´, p=12, leaf_rotation=90, leaf_front_size=12, show_contracted=True, annoted=True, annotate_above=1, max_d=d_max)? Donde d_max=10. 4. 5. 3. Ninguna de las anteriores. Tenemos un dataset de 1000 imgs con 128 attributos (variables) realizamos un K-means con un número de cluster igual a 5, kmeans=KMeans(n_clusters=5, random_state=0). Obtenemos los clusters de las siguiente forma: clusters=kmeans.fit_predict(data), siendo data los datos de entrada y target su etiqueta. ¿Cuál será la dimensión de kmeans.cluster_centers?. 1000x128. 1000x5. Ninguna de las anteriores. 128x1000. Siendo D la matriz de grado, W_ad la matriz de adyaciencia y W_dist la matriz de distancias. ¿Cómo obtenemos la matriz Lapaciana?. L = D - W_dist. L = W_ad - W_dist. L = D - W_ad. Ninguna de las anteriores. |