Agrupación difusa de K-medias en Mahout



Este blog ofrece una introducción a la agrupación en clústeres de K-Means difusos en Apache Mahout.

Fuzzy K-Means es exactamente el mismo algoritmo que K-means, que es una técnica de agrupación simple y popular. La única diferencia es que, en lugar de asignar un punto exclusivamente a un solo grupo, puede tener algún tipo de confusión o superposición entre dos o más grupos. Los siguientes son los puntos clave que describen las medias K difusas:





  • A diferencia de K-Means, que busca un grupo duro, en el que cada uno de los puntos pertenece a un grupo, Fuzzy K-Means busca los grupos más suaves para superponerse.
  • Un solo punto en un grupo suave puede pertenecer a más de un grupo con un cierto valor de afinidad hacia cada uno de los puntos.
  • La afinidad es proporcional a la distancia de ese punto al centroide del grupo.
  • Similar a K-Means, Fuzzy K-Means trabaja en los objetos que tienen la medida de distancia definida y se pueden representar en la norte- espacio vectorial dimensional.

Fluzzy K-Means MapReduce el flujo

No hay mucha diferencia entre el flujo de MapReduce de K-Means y Fuzzy K-Means. La implementación de ambos en Mahout es similar.

que es una funcion virtual java

Los siguientes son los parámetros esenciales para la implementación de Fuzzy K-Means:



  • Necesita un conjunto de datos vectoriales para la entrada.
  • Tiene que haber RandomSeedGenerator para sembrar los k clústeres iniciales.
  • Para medir la distancia se requiere SquaredEuclideanDistanceMeasure.
  • Un gran valor de umbral de convergencia, como –cd 1.0, si se ha utilizado el valor al cuadrado de la medida de distancia.
  • Un valor para maxIterations el valor predeterminado es -x 10.
  • El coeficiente de normalización o factor de falta de claridad, con un valor superior a -m 1.0

Tienes una pregunta para nosotros? Menciónalos en la sección de comentarios y nos pondremos en contacto contigo.

cómo convertir decimal a binario en Python

Artículos Relacionados



fusionar orden c ++ matriz

Aprendizaje supervisado en Apache Mahout