Tutorial de Python Pandas: Aprenda Pandas para el análisis de datos



En este tutorial de Python Pandas, aprenderá las diversas operaciones de Pandas. También incluye un caso de uso, donde puede analizar los datos usando Pandas.

En este blog, discutiremos el análisis de datos usando Pandas en Python.Hoy, es una habilidad candente en la industria que superó a PHP en 2017 y C # en 2018 en términos de popularidad y uso general.Antes de hablar de Pandas, hay que entender el concepto de matrices Numpy. ¿Por qué? Porque Pandas es una biblioteca de software de código abierto que se basa en . En este Tutorial de Python Pandas, lo llevaré a través de los siguientes temas, que servirán como fundamentos para los próximos blogs:

Empecemos. :-)





¿Qué es Python Pandas?

Pandas se utiliza para la manipulación, el análisis y la limpieza de datos. Python pandas es adecuado para diferentes tipos de datos, como:

php crea una matriz a partir de una cadena
  • Datos tabulares con columnas de tipos heterogéneos
  • Datos de series de tiempo ordenados y no ordenados
  • Datos matriciales arbitrarios con etiquetas de fila y columna
  • Datos sin etiquetar
  • Cualquier otra forma de conjuntos de datos de observación o estadísticos

¿Cómo instalar Pandas?

Para instalar Python Pandas, vaya a su línea de comando / terminal y escriba 'pip install pandas' o de lo contrario, si tiene anaconda instalado en su sistema, simplemente escriba 'conda install pandas'. Una vez completada la instalación, vaya a su IDE (Jupyter, PyCharm, etc.) y simplemente impórtelo escribiendo: 'importar pandas como pd'



Avanzando en el tutorial de Python pandas, echemos un vistazo a algunas de sus operaciones:

Operaciones de Python Pandas

Con Python pandas, puede realizar muchas operaciones con series, marcos de datos, datos faltantes, agrupar por, etc. Algunas de las operaciones comunes para la manipulación de datos se enumeran a continuación:



PandasOperations - Tutorial de Python Pandas - Edureka

Ahora, entendamos todas estas operaciones una por una.

Cortar el marco de datos

Para realizar la segmentación de datos, necesita un marco de datos. No se preocupe, el marco de datos es una estructura de datos bidimensional y el objeto pandas más común. Primero, creemos un marco de datos.

Consulte el siguiente código para su implementación en PyCharm:

importar pandas como pd XYZ_web = {'Día': [1,2,3,4,5,6], 'Visitantes': [1000, 700,6000,1000,400,350], 'Bounce_Rate': [20,20, 23,15,10,34]} df = pd.DataFrame (XYZ_web) print (df)

Salida :

Bounce_Rate Día Visitantes 0 20 1 1000 1 20 2700 2 23 3 6000 3 15 4 1000 4 10 5400 5 34 6350

El código anterior convertirá un diccionario en un marco de datos pandas junto con el índice a la izquierda. Ahora, cortemos una columna en particular de este marco de datos. Consulte la imagen a continuación:

imprimir (df. cabezal (2))

Salida:

Bounce_Rate Día Visitantes 0 20 1 1000 1 20 2700

Del mismo modo, si desea las dos últimas filas de datos, escriba el siguiente comando:

imprimir (df.tail (2))

Salida:

Bounce_Rate Día Visitantes 4 10 5400 5 34 6350

A continuación, en el tutorial de Python Pandas, realicemos la fusión y la unión.

Fusión y unión

Al fusionar, puede fusionar dos marcos de datos para formar un solo marco de datos. También puede decidir qué columnas desea hacer comunes. Permítanme implementar eso de manera práctica, primero crearé tres marcos de datos, que tienen algunos pares clave-valor y luego fusionaré los marcos de datos. Consulte el código a continuación:

HPI IND_PIB Int_Rate 0 80 50 2 1 90 45 1 2 70 45 2 3 60 67 3

Salida:

importar pandas como pd df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45, 67]}, índice = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3] , 'IND_GDP': [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2) print (merged)

Como puede ver arriba, los dos marcos de datos se han fusionado en un solo marco de datos. Ahora, también puede especificar la columna que desea hacer común. Por ejemplo, quiero que la columna 'HPI' sea común y para todo lo demás, quiero columnas separadas. Entonces, déjame implementar eso prácticamente:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, index = [2005, 2006,2007,2008]) merged = pd.merge (df1, df2, on = 'HPI') print (combinado)

Salida:

IND_GDP Int_Rate Low_Tier_HPI Desempleo 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

A continuación, entendamos unión en el tutorial de Python Pandas. Es otro método conveniente para combinar dos marcos de datos indexados de manera diferente en un solo marco de datos de resultado. Esto es bastante similar a la operación de 'fusión', excepto que la operación de unión estará en el 'índice' en lugar de en las 'columnas'. Implementémoslo de manera práctica.

df1 = pd.DataFrame ({'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, índice = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'Low_Tier_HPI': [50,45,67,34], 'Unemployment': [1,3,5,6]}, index = [2001, 2003,2004,2004]) unido = df1. unirse (df2) imprimir (unido)

Salida:

IND_GDP Int_Rate Low_Tier_HPI Desempleo 2001 50 2 50.0 1.0 2002 45 1 NaN NaN 2003 45 2 45.0 3.0 2004 67 3 67.0 5.0 2004 67 3 34.0 6.0

Como puede observar en el resultado anterior, en el año 2002 (índice), no hay ningún valor adjunto a las columnas 'low_tier_HPI' y 'desempleo', por lo tanto, se ha impreso NaN (No es un número). Posteriormente en 2004, ambos valores están disponibles, por lo que se han impreso los valores respectivos.

Puede seguir este tutorial de grabación de Python Pandas donde nuestro instructor ha explicado los temas de manera detallada con ejemplos que lo ayudarán a comprender mejor este concepto.

Python para análisis de datos | Tutorial de Python Pandas | Entrenamiento Python | Edureka


Avanzando en el tutorial de Python pandas, entendamos cómo concatenar dos marcos de datos de datos.

Concatenación

La concatenación básicamente pega los marcos de datos. Puede seleccionar la dimensión en la que desea concatenar. Para eso, simplemente use 'pd.concat' y pase la lista de marcos de datos para concatenar juntos. Considere el siguiente ejemplo.

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índice = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2]) print (concat)

Salida:

HPI IND_PIB Int_Rate 2001 80 50 2 2002 90 45 1 2003 70 45 2 2004 60 67 3 2005 80 50 2 2006 90 45 1 2007 70 45 2 2008 60 67 3

Como puede ver arriba, los dos marcos de datos están pegados en un solo marco de datos, donde el índice comienza desde 2001 hasta 2008. A continuación, también puede especificar axis = 1 para unir, fusionar o cancatenar a lo largo de las columnas. Consulte el código a continuación:

df1 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP': [50,45,45,67]}, index = [2001, 2002,2003,2004]) df2 = pd.DataFrame ({'HPI': [80,90,70,60], 'Int_Rate': [2,1,2,3], 'IND_GDP' : [50,45,45,67]}, índice = [2005, 2006,2007,2008]) concat = pd.concat ([df1, df2], axis = 1) print (concat)

Salida:

HPI IND_GDP Int_Rate HPI IND_GDP Int_Rate 2001 80.0 50.0 2.0 NaN NaN NaN 2002 90.0 45.0 1.0 NaN NaN NaN 2003 70.0 45.0 2.0 NaN NaN NaN 2004 60.0 67.0 3.0 NaN NaN NaN 2005 NaN NaN NaN 80.0 50.0 2.0 2006 NaN NaN NaN 90.0 45.0 1.0 2007 NaN NaN NaN 70,0 45,0 2,0 2008 NaN NaN NaN 60,0 67,0 3,0

Como puede ver arriba, hay muchos valores perdidos. Esto sucede porque los marcos de datos no tenían valores para todos los índices en los que desea concatenar. Por lo tanto, debe asegurarse de tener toda la información alineada correctamente cuando se une o concatena en el eje.

Cambiar el índice

A continuación, en el tutorial de Python Pandas, entenderemos cómo cambiar los valores de índice en un marco de datos. Por ejemplo, creemos un marco de datos con algunos pares de valores clave en un diccionario y cambiemos los valores del índice. Considere el siguiente ejemplo:

regresión logística en el ejemplo de Python

Veamos cómo sucede realmente:

importar pandas como pd df = pd.DataFrame ({'Día': [1,2,3,4], 'Visitantes': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df.set_index ('Day', inplace = True) print (df)

Salida:

Bounce_Rate Visitantes Día 1 20200 2 45100 3 60230 4 10300

Como puede observar en el resultado anterior, el valor del índice se ha modificado con respecto a la columna 'Día'.

Cambiar los encabezados de columna

Cambiemos ahora los encabezados de la columna en este tutorial de Python Pandas. Tomemos el mismo ejemplo, donde cambiaré el encabezado de la columna de 'Visitantes' a 'Usuarios'. Entonces, déjame implementarlo de manera práctica.

importar pandas como pd df = pd.DataFrame ({'Día': [1,2,3,4], 'Visitantes': [200, 100,230,300], 'Bounce_Rate': [20,45,60,10]}) df = df.rename (columnas = {'Visitantes': 'Usuarios'}) print (df)

Salida:

Bounce_Rate Usuarios diarios 0 20 1200 1 45 2100 2 60 3230 3 10 4300

Como puede ver arriba, el encabezado de la columna 'Visitantes' se ha cambiado a 'Usuarios'. A continuación, en el tutorial de Python Pandas, realicemos el intercambio de datos.

Munging de datos

En Data munging, puede convertir un dato en particular en un formato diferente. Por ejemplo, si tiene un archivo .csv, puede convertirlo a .html o también a cualquier otro formato de datos. Entonces, déjame implementar esto de manera práctica.

importar pandas como pd country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-EmploymentAPI_ILO_country_YU.csv', index_col = 0) country.to_html ('edu.html')

Una vez que ejecute este código, se creará un archivo HTML llamado 'edu.html'. Puede copiar directamente la ruta del archivo y pegarlo en su navegador, que muestra los datos en formato HTML. Consulte la siguiente captura de pantalla:


A continuación, en el tutorial de Python Pandas, echemos un vistazo a un caso de uso que habla sobre el desempleo juvenil global.

Tutorial de Python Pandas: caso de uso para analizar datos de desempleo juvenil

Planteamiento del problema :Se le proporciona un conjunto de datos que comprende el porcentaje de jóvenes desempleados a nivel mundial de 2010 a 2014. Debe utilizar este conjunto de datos y encontrar el cambio en el porcentaje de jóvenes para cada país de 2010-2011.

Primero, comprendamos el conjunto de datos que contiene las columnas como Nombre de país, Código de país y el año de 2010 a 2014. Ahora, usando pandas, usaremos “pd.read_csv” para leer el archivo con formato de archivo .csv.
Consulte la captura de pantalla a continuación:

Avancemos y realicemos un análisis de datos en el que vamos a conocer la variación porcentual de los jóvenes desempleados entre 2010 y 2011. Luego visualizaremos el mismo utilizando library, que es una poderosa biblioteca para visualización en Python. Se puede utilizar en scripts de Python, shell, servidores de aplicaciones web y otros kits de herramientas de GUI. Puede usar leer más aquí:

Ahora, implementemos el código en PyCharm:

import pandas como pd import matplotlib.pyplot como plt de matplotlib import style style.use ('fivethirtyeight') country = pd.read_csv ('D: UsersAayushiDownloadsworld-bank-youth-desempleoAPI_ILO_country_YU.csv', index_col = 0) df = country. head (5) df = df.set_index (['Código de país']) sd = sd.reindex (columnas = ['2010', '2011']) db = sd.diff (eje = 1) db.plot (tipo = 'barra') plt.show ()

Como puede ver arriba, he realizado el análisis en las 5 filas superiores del marco de datos del país. A continuación, definí un valor de índice como 'Código de país' y luego volví a indexar la columna para 2010 y 2011. Luego, tenemos un marco de datos más db, que imprime la diferencia entre las dos columnas o el cambio porcentual de jóvenes desempleados de 2010 a 2011. Finalmente, he trazado un diagrama de barras usando la biblioteca Matplotlib en Python.


Ahora bien, si lo notó en el gráfico anterior, en Afganistán (AFG) entre 2010 y 2011, ha habido un aumento de jóvenes desempleados de aprox. 0,25%. Luego, en Angola (AGO), hay una tendencia negativa que significa que el porcentaje de jóvenes desempleados se ha reducido. Del mismo modo, puede realizar análisis en diferentes conjuntos de datos.

Espero que mi blog sobre el “Tutorial de Python Pandas” sea relevante para ti. Para obtener un conocimiento profundo de Python junto con sus diversas aplicaciones, puede inscribirse en Live de Edureka con soporte 24/7 y acceso de por vida.

Tienes una pregunta para nosotros? Por favor, menciónelo en la sección de comentarios de este blog “Tutorial de Python Pandas” y nos comunicaremos con usted lo antes posible.