Introducción a la idea de datos.


En esta sección vamos a crear las tablas de datos que se ha trabajado en introducción a la idea de datos en el blog de "Explorando el Mundo de la Estadística: Conceptos Básicos y Aplicaciones" con Python.


Ejercicio 1 

Tenemos una bolsa con dulces con diferentes sabores: manzana, fresa, limón, piña, mora, uva, mandarina y cereza. Por cada sabor hay una cantidad diferente: 5 de manzana, 3 de fresa, 6 de limón, 4 de piña, 5 de mora, 3 de coco, 2 de uva y 2 de mandarina.

Para crear la tabla en Python, hacemos lo siguiente:

Paso 1: 

Abrimos nuestra consola de Python y escribimos el siguiente código:

import pandas as pd

dulce = {    

'Sabor': ["Manzana", "Fresa", "Limón", "Piña","Mora","Coco", "Uva", "Mandarina"],

    'Cantidad':[5, 3, 6, 4, 5, 3, 2, 2],    

}

df=pd.DataFrame(dulce)

print(df)


Paso 2:

Damos en la opción "Run"



Podemos observar que debajo del código se ha creado una tabla con los datos que hemos ingresado, donde se observa cada sabor con su respectiva cantidad.

Si queremos saber la cantidad de dulces en total, escribimos lo siguiente:

SumT=df['Cantidad'].sum()
print("Cantidad total de dulces", SumT)

Obtendremos el siguiente resultado:


Podemos observar que nos da la cantidad total de dulces que hay en los datos.

Ejercicio 2


Se ha preguntado a 35 personas cual es su marca de carros preferida. Se tiene los datos de esta manera:


Donde C es Chevrolet, R es Renault, H es Hyundai, W es Volkswagen, N es Nissan

En este ejercicio se diferencia del otro, pues no sabemos concretamente cuantos carros de cada marca hay. Sin embargo, estos datos se pueden introducir como se muestra en el recuadro. Esto anterior se hace de la siguiente manera.


import pandas as pd

# Lista de marcas de carros
marcasCarro = ["C","R","N","H","W","R","W","H","R","C",
                 "N","H","R","N","R","H","W","C","C","W",
                 "W","H","R","R","C","C","H","N","N","R","H","W","C","R","N"]

# Crear un DataFrame a partir de la lista
df = pd.DataFrame({'Marcas': marcasCarro})

# Usar el método 'value_counts()' para contar la cantidad de cada letra
conteo_marcas = df['Marcas'].value_counts().reset_index()
conteo_marcas.columns = ['Marcas', 'Cantidad']

# Mostrar la tabla de conteo
print(conteo_marcas)


Compilamos el código:




Vemos que el programa nos muestra la información de manera ordenada, nos clasifica cada letra que representa la marca de carro con su respectiva cantidad. Si queremos mostrar el nombre de las marcas de carro aplicamos el siguiente código.

import pandas as pd

# Lista de marcas de carros
marcasCarro = ["C","R","N","H","W","R","W","H","R","C",
                 "N","H","R","N","R","H","W","C","C","W",
                 "W","H","R","R","C","C","H","N","N","R","H","W","C","R","N"]

#crea un diccionario que mapee las letras a las marcas:
mapeo_marcas = {
    'C': 'Chevrolet',
    'R': 'Renault',
    'H': 'Hyundai',
    'W': 'Volkswagen',
    'N': 'Nissan'
}

# la función replace() para reemplazar las letras en la columna 'Marcas' con sus nombres de marca correspondientes

df['Marcas'] = df['Marcas'].replace(mapeo_marcas)

#cuenta las marcas que hay
conteo_marcas = df['Marcas'].value_counts().reset_index()

conteo_marcas.columns = ['Marca de Carros', 'Cantidad']

print(conteo_marcas)


Compilamos el código



Vemos que nos muestra la información de las marcas con su respectiva cantidad.


Explicación del código

Ejercicio 1



import pandas as pd: llamamos a la librería pandas para la lectura de datos que vamos a realizar. Para llamar o importar la librería, usamos la palabra import (esto se usa para llamar a cualquier librería), luego usamos pandas que es la librería que nos permite leer los datos. El as se utiliza para crear un alias o asignación al importar un módulo para la siguiente abreviatura, que, en este caso, sería "pd".

pd.DataFrame(): es una función proporcionada por la biblioteca 'pandas' en Python para crear un objeto DataFrame. Un DataFrame es una estructura de datos bidimensional, similar a una tabla en una base de datos o una hoja de cálculo de Excel, que se utiliza para organizar y trabajar con datos tabulares de manera eficiente. pd.DataFrame() se utiliza para construir un DataFrame a partir de diferentes tipos de datos, como diccionarios, listas, matrices, etc. Se puede personalizar la estructura de el DataFrame proporcionando los datos en el formato adecuado. En el paréntesis escribimos el nombre del diccionario (dulce) y pd.DataFrame(dulce) lo asignamos a una variable "df" (esta variable puede tomar cualquier nombre) mediante el signo "=".

dulce: en esta parte (o comúnmente se usa la palabra "data") creamos un "diccionario" que es para almacenar la información como caracteres, cadenas de texto o números, etc. Podemos darle cualquier nombre según el programa que estamos creando. Al crear el diccionario, este siempre debe quedar en llaves la información a agregar, tal como está en el ejemplo.

Adentro de las llaves vemos 'Sabor' y 'Cantidad', cada uno de ellos con unos valores adentro. 'Sabor' y 'Cantidad' son Keys o claves, que hacen parte del diccionario "dulce" y estos tienen algo llamado valor. Cada una de las claves está en comillas ya que es para mostrar como cadenas de texto para que se muestre al imprimir el resultado tal como se escribe. Las claves es la que nos permite encontrar un dato dentro del diccionario. Cada clave está acompañada por el dato o valor al que representa. Después de la clave va dos puntos y en corchetes [] van los valores, los cuales van separados con comas. En el caso de 'Sabor' tenemos cadenas de textos, los cuales van con comillas y separados con comas mientras que en 'Cantidad' vemos que son números y van separados de cada coma.

pd.DataFrame() se utiliza para construir un DataFrame a partir de diferentes tipos de datos, como diccionarios, listas, matrices, etc. En este se caso, se contruye un DataFrame de lo que está adentro del paréntesis, en este caso, 'dulce'. Esto anterior se guarda en una variable, que en este caso es df.

Escribimos el comando print para imprimir  o mostrar la información, seguido de los paréntesis, donde va la variable df que está asignada por el DataFrame, que en este caso es "dulce". 

Una vez que se tiene el código se procede a correr y éste nos muestra todos los datos de manera ordenada, los sabores de cada dulce.

Por último, para saber el total de número de dulces creamos una variable (SumT) y escribimos la variable que le asignamos al data frame (en este caso "df"), seguido abrimos corchete, escribimos la clave 'Cantidad' que es donde está la cantidad de dulces, cerramos corchetes y finalizamos con ".sum()" que nos permite que sume todo los valores que hay. En la línea siguiente escribimos print y adentro del paréntis una cadena de texto entre comillas ' ' que es el texto que vamos a imprimir, seguido de una coma mas la variable que muestra el total del resultado. De esta manera nos muestra la cadena de texto con el resultado total de 'Cantidad' la cantidad de dulces que hay.

Ejercicio 2




Para hacer un comentario en Python, escribimos el símbolo "#" y escribimos la información a explicar. Python ignora el texto siempre y cuando esté precedido de "#".

Creamos un diccionario llamado marcasCarro y en los valores (la parte que va entre corchetes [ ]) ingreamos la información que tenemos, en este caso, las letras de cada marca que nos indica el cuadro del ejercicio.

Una vez que creamos el diccionario, creamos el DataFrame a partir de la lista anterior y lo asignamos a una variable, en este caso, df

Creamos una variable llamada 'conteo marcas' (puede usarse cualquier nombre de variable) donde guardaremos la cantidad total de cada letra gracias a la función 'value_counts() seguido de un punto y reset_index().

Después, para organizar la información en columnas usamos la estructura de conteo_marcas.columns que organiza los valores de 'Marcas' y 'Cantidad' donde se asigna respectivamente cada letra con su cantidad y por último para mostrar la información usamos la función print y entre paréntesis () ponemos la variable que asignamos la información, en este caso conteo_marcas.

Para el caso de renombrar cada letra, se crea un diccionario en donde relacione cada inicial de la marca del carro con el nombre de la marca del carro. Es decir, un mapeo de las letras de las marcas y en los valores se asigna cada letra con su marca como está en el código. 

Luego, reemplazamos cada letra con su marca con la función replace(). Entonces, llamamos al DataFrame con la clave 'Marcas' y esta será nuestra variable donde guardaremos la asignación de cada marca por cada letra. Después del igual, escribimos la misma variable anterior seguido del punto mas replace(mapeo_marcas)donde lo que hay en el paréntesis es el diccionario que contiene los valores que va a reemplazar cada letra.

Luego creamos las columnas como se muestra para conteo_marcas seguido del punto mas columns y asignamos los valores entre corchetes [], que en este caso es 'Marca de Carros' y 'Cantidad'

Por último, imprimos conteo_marcas para mostrar la información mediante la función print.

 

No hay comentarios.:

Publicar un comentario

Bienvenida

En este blog se mostrará los temas de estadística que se ha trabajado en la página de " Explorando el Mundo de la Estadística: Concepto...