Estadísticas para el aprendizaje automático: una guía para principiantes



Este artículo sobre Estadísticas para el aprendizaje automático es una guía completa sobre los diversos conceptos de las estadísticas con ejemplos.

Comprender los datos y poder crear valor a partir de ellos es la habilidad de la década. El aprendizaje automático es una de las habilidades fundamentales que ayuda a las empresas a cumplirla. Sin embargo, para comenzar, debe construir bien sus bases. Entonces, en este artículo, cubriré algunos conceptos básicos y le brindaré pautas para comenzar su viaje en el aprendizaje automático. Entonces, en este artículo sobre estadísticas para el aprendizaje automático, se discutirán los siguientes temas:

  1. Probabilidad
  2. Estadísticas
  3. Álgebra lineal

Probabilidad y estadísticas para el aprendizaje automático:





¿Qué es la probabilidad?

La probabilidad cuantifica la probabilidad de que ocurra un evento. Por ejemplo, si lanza un dado justo e imparcial, entonces la probabilidad de 1 aparecer es 1/6 . Ahora, si te preguntas wpor qué ¡Entonces la respuesta es bastante simple!

Esto se debe a que hay seis posibilidades y todas son igualmente probables (dado justo). Por lo tanto podemos agregar 1+1+1+1+1+1 = 6. Pero, dado que estamos interesados ​​en evento donde aparece 1 . Ahi esta sólo una forma en que puede ocurrir el evento. Por lo tanto,



Probabilidad de que aparezca 1 = 1/6

Similar es el caso con todos los demás números, ya que todos los eventos son igualmente probables. Simple, ¿verdad?

Bueno, una definición frecuentista de probabilidad para este ejemplo sonaría como: la probabilidad de que 1 aparezca es la relación entre el número de veces que 1 apareció y el número total de veces que se lanzó el dado si el dado se lanzó un número infinito de veces.¿Cómo esto tiene sentido?



Hagámoslo más interesante. Considere los dos casos: sacó un dado justo 5 veces. En un caso, la secuencia de números que aparecen es - [1,4,2,6,4,3]. En el otro caso, obtenemos - [2,2,2,2,2,2]. ¿Cuál crees que es más probable?

Ambos son igualmente probables. Parece extraño, ¿verdad?

Ahora, considere otro caso donde todos los 5 rollos en cada caso son independiente . Es decir, un rollo no afecta al otro. En el primer caso, cuando aparece 6, no tenía idea de que aparecieron 2 antes que él. Por lo tanto, los 5 rollos son igualmente probables.

De manera similar, los 2 directos en el segundo caso pueden entenderse como una secuencia de eventos independientes. Y todos estos eventos son igualmente probables. En general, dado que tenemos los mismos dados, la probabilidad de que aparezca un número particular en el caso de que uno sea el mismo que en el caso dos. A continuación, en este artículo sobre estadísticas para el aprendizaje automático, entendamos el término Independencia.

Independencia

Dos eventos Se dice que A y B son independientes si la ocurrencia de A no afecta el evento B . Por ejemplo, si lanza una moneda y lanza un dado, el resultado del dado no tiene ningún efecto sobre si la moneda muestra cara o cruz. También por dos eventos independientes A y B , la probabilidad de que A y B puedan ocurrir juntos . Entonces, por ejemplo, si desea la probabilidad de que la moneda muestre cara y el dado muestre 3.

P (A y B) = P (A) * P (B)

Por lo tanto, P = & frac12 (probabilidad de que aparezcan caras) * ⅙ (probabilidad de que aparezcan 3) = 1/12

En el ejemplo anterior, para ambos casos, P = ⅙ * ⅙ * ⅙ * ⅙ * ⅙ * ⅙.

cómo hacer una matriz de objetos

Ahora hablemos de eventos que no son independientes. Considere la siguiente tabla:

Obeso No obeso
Problemas del corazón4515
Sin problemas de corazón1030

Se realizó una encuesta a 100 personas. 60 tenían problemas cardíacos y 40 no. De los 60 que tenían un problema cardíaco, 45 eran obesos. De los 40 que no tenían ningún problema cardíaco, 10 eran obesos. Si alguien te pregunta ...

  1. ¿Cuál es la probabilidad de tener un problema cardíaco?
  2. ¿Cuál es la probabilidad de tener un problema cardíaco y no ser obeso?

La respuesta a las primeras preguntas es fácil: 60/100. Para el segundo, sería 15/100. Ahora considere la tercera pregunta: se eligió una persona al azar. Se descubrió que tenía una enfermedad cardíaca. ¿Cuál es la probabilidad de que sea obeso?

Ahora piense en la información que se le proporcionó: se sabe que padece una enfermedad cardíaca. Por lo tanto, no puede ser de los 40 que no tenga una enfermedad cardíaca. Solo hay 60 opciones posibles (la fila superior de la tabla). Ahora, entre estas posibilidades reducidas, la probabilidad de que sea obeso es de 45/60. Ahora que ya sabe qué son los eventos independientes, a continuación en este artículo sobre estadísticas para el aprendizaje automático, comprendamos las probabilidades condicionales.

Probabilidades condicionales

Para comprender las probabilidades condicionales, continuemos nuestra discusión con el ejemplo anterior. El estado de obesidad y el estado de haber sufrido un problema cardíaco no son independientes. Si la obesidad no afectó los problemas cardíacos, entonces el número de casos de obesidad y no obesidad para las personas que tienen problemas cardíacos habría sido el mismo.

Además, nos dieron que la persona tiene problemas cardíacos y tuvimos que averiguar la probabilidad de que sea obesa. Entonces, se dice que la probabilidad, en este caso, está condicionada al hecho de que tiene un problema cardíaco. Si la probabilidad de que ocurra el evento A está condicionada al evento B, lo representamos como

P (A | B)

Ahora bien, hay un teorema que nos ayuda a calcular esta probabilidad condicional. Se llama el Regla de Bayes .

P (A | B) = P (A y B) / P (B)

Puede verificar este teorema conectando el ejemplo que acabamos de discutir. Si lo ha entendido hasta ahora, puede comenzar con lo siguiente – Bayes ingenuo . Utiliza probabilidades condicionales para clasificar si un correo electrónico es spam o no. Puede realizar muchas otras tareas de clasificación. Pero esencialmente, la probabilidad condicional está en el corazón de .

Estadísticas:

Las estadísticas son se utiliza para resumir y hacer inferencias sobre una gran cantidad de puntos de datos. En ciencia de datos y aprendizaje automático, a menudo se encontrará con la siguiente terminología

  • Medidas de centralidad
  • Distribuciones (especialmente normales)

Medidas de centralidad y medidas de diferenciales

Media:

La media es solo una promedio de números . Para averiguar la media, tienes que sumar los números y dividirlo por el número de números. Por ejemplo, la media de [1,2,3,4,5] es 15/5 = 3.

mean-statistics-for-machine-learning

Mediana:

La mediana es la elemento medio de un conjunto de números cuando están dispuestos en orden ascendente. Por ejemplo, los números [1,2,4,3,5] están dispuestos en orden ascendente [1,2,3,4,5]. El del medio es 3. Por lo tanto, la mediana es 3. ¿Pero qué pasa si el número de números es par y, por lo tanto, no tiene un número del medio? En ese caso, toma el promedio de los dos números más medios. Para una secuencia de 2n números en orden ascendente, promedia el n y (n + 1)thnúmero para obtener la mediana. Ejemplo: [1,2,3,4,5,6] tiene la mediana (3 + 4) / 2 = 3,5

Modo:

El modo es simplemente el número más frecuente en un conjunto de números . Por ejemplo, el modo de [1,2,3,3,4,5,5,5] es 5.

Diferencia:

La varianza no es una medida de centralidad. Mide cómo se distribuyen sus datos por la media . Se cuantifica como

xes la media de N números. Toma un punto, resta la media, toma el cuadrado de esta diferencia. Haga esto para todos los N números y promedielos. La raíz cuadrada de la varianza se llama desviación estándar. A continuación, en este artículo sobre estadísticas para el aprendizaje automático, comprendamos la distribución normal.

Distribución normal

La distribución nos ayuda comprender cómo se difunden nuestros datos . Por ejemplo, en una muestra de edades, es posible que tengamos más jóvenes que adultos mayores y, por lo tanto, valores menores de edad más que valores mayores. Pero, ¿cómo definimos una distribución? Considere el siguiente ejemplo

El eje y representa la densidad. La moda de esta distribución es 30, ya que es el pico y, por tanto, el más frecuente. También podemos ubicar la mediana. La mediana se encuentra en el punto del eje x donde se cubre la mitad del área bajo la curva. El área bajo cualquier distribución normal es 1 porque la suma de probabilidades de todos los eventos es 1. Por ejemplo,

diferencia entre lanzar y lanzar en java

La mediana en el caso anterior es alrededor de 4. Esto significa que el área bajo la curva antes de 4 es la misma que después de 4. Considere otro ejemplo

Vemos tres distribuciones normales. Los azules y rojos tienen la misma media. El rojo tiene una mayor variación. Por lo tanto, está más extendido que el azul. Pero como el área tiene que ser 1, el pico de la curva roja es más corto que la curva azul, para mantener el área constante.

Espero que haya entendido las estadísticas básicas y las distribuciones normales. Ahora, a continuación en este artículo sobre estadísticas para el aprendizaje automático, aprendamos sobre el álgebra lineal.

Álgebra lineal

La IA moderna no sería posible sin el álgebra lineal. Forma el núcleo de Aprendizaje profundo y se ha utilizado incluso en algoritmos simples como . Sin más demora, comencemos.

Debe estar familiarizado con los vectores. Son una especie de representaciones geométricas en el espacio. Por ejemplo, un vector [3,4] tiene 3 unidades a lo largo del eje xy 4 unidades a lo largo del eje y. Considere la siguiente imagen:

El vector d1 tiene 0.707 unidades a lo largo del eje xy 0.707 unidades a lo largo del eje y. Un vector tiene 1 dimensión. Tiene necesariamente una magnitud y una dirección. Por ejemplo,

La imagen de arriba tiene un vector (4,3). Su magnitud es 5 y hace 36,9 grados con el eje x.

Ahora bien, ¿qué es una matriz? Matrix es una matriz multidimensional de números. ¿Para qué se usa? Veremos adelante. Pero primero, veamos cómo se usa.

Matriz

Una matriz puede tener muchas dimensiones. Consideremos una matriz bidimensional. Tiene filas (m) y columnas (n). Por lo tanto tiene m * n elementos.

lo que se adjunta en java

Por ejemplo,

Esta matriz tiene 5 filas y 5 columnas. Llamémoslo A. Por lo tanto, A (2,3) es la entrada en la segunda fila y la tercera columna que es 8.

Ahora que sabe qué es una matriz, veamos las diferentes operaciones de la matriz.

Operaciones de matriz

Adición de matrices

Dos matrices de la mismo se pueden agregar dimensiones. La adición ocurre por elementos.

Multiplicación escalar

Una matriz se puede multiplicar por una cantidad escalar. Tal multiplicación lleva a que cada entrada en la matriz se multiplique por el escalar. Un escalar es solo un número

Transposición de matriz

La transposición de la matriz es simple. Para una matriz A (m, n), sea A ’su transpuesta. Entonces

A '(i, j) = A (j, i)

Por ejemplo,

Multiplicación de matrices

Probablemente esto sea un poco complicado que otras operaciones. Antes de sumergirnos en él, definamos el producto escalar entre dos vectores.

Considere el vector X = [1,4,6,0] y el vector Y = [2,3,4,5]. Entonces el producto escalar entre X e Y se define como

X.Y = 1*2 + 4*3 + 6*4 + 0*5 = 38

Entonces, es multiplicación y suma por elementos. Ahora,consideremos dos matrices A (m, n) y B (n, k), donde m, n, k son dimensiones y, por tanto, números enteros. Definimos la multiplicación de matrices como

En el ejemplo anterior, el primer elemento del producto (44) se obtiene mediante el producto escalar de la primera fila de la matriz izquierda con la primera columna de la matriz derecha. De manera similar, 72 se obtiene por el producto escalar de la primera fila de la matriz izquierda con la segunda columna de la matriz derecha.

Tenga en cuenta que para la matriz de la izquierda, el número de columnas debe ser igual al número de filas de la columna de la derecha. En nuestro caso, el producto AB existe pero no BA ya que m no es igual a k. Para dos matrices A (m, n) y B (n, k), el producto AB está definido y la dimensión del producto es (m, k) (las dimensiones más externas de (m, n), (n, k )). Pero BA no se define a menos que m = k.

Con esto, llegamos al final de este artículo sobre Estadísticas para el aprendizaje automático. Espero que haya entendido algo de la jerga de aprendizaje automático. Sin embargo, no termina aquí. Para asegurarse de estar preparado para la industria, puede consultar los cursos de Edureka sobre ciencia de datos e inteligencia artificial. Se pueden encontrar