Resumen del certificado profesional de análisis de datos de Google
Data skillset: curiosidad, entender contexto, mindset técnico, diseño de datos, estrategia de datos.
Pensamiento analítico: orientación a problemas, pensamiento general y orientado a detalles, estrategia, correlación, y visualización.
4 tipos clave de análisis de negocios: de diagnóstico, descriptivo, predictivo, y prescriptivo.
Ciclo de vida de los datos: El ciclo comienza con la herramienta de análisis de datos adecuada. Estos incluyen hojas de cálculo, bases de datos, lenguajes de consulta y software de visualización.
1. Planificar: Decida qué tipo de datos se necesitan, cómo se gestionarán y quién será responsable de ellos.
¿Qué planes y decisiones necesita tomar? ¿Qué datos necesitas para responder a tu pregunta?.
2. Capturar: recopilar o traer datos de una variedad de fuentes diferentes. Con tantos datos que se crean todos los días, las formas de recopilarlos son realmente infinitas. Un método común es obtener datos de recursos externos. Otra forma de obtener datos es a partir de los propios documentos y archivos de una empresa, que normalmente se almacenan dentro de una base de datos. “Una base de datos” es una colección de datos almacenados en un sistema informático.
¿De dónde provienen sus datos? ¿Cómo lo obtendrás?
3. Administrar: Cuidar y mantener nuestros datos, cómo y dónde se almacenan, las herramientas utilizadas para mantenerlos seguros y las acciones tomadas para garantizar que se mantengan correctamente. Esta fase es muy importante para la limpieza de datos.
¿Cómo almacenará sus datos? ¿Para qué se debe usar? ¿Cómo mantiene estos datos seguros y protegidos?
4. Analizar: en esta fase, los datos se utilizan para resolver problemas, tomar buenas decisiones y respaldar los objetivos comerciales.
¿Cómo analizará la empresa los datos? ¿Qué herramientas deben usar?
5. Archivar: mantenga los datos relevantes almacenados para referencia futura y a largo plazo.
¿Qué deben hacer con sus datos cuando envejecen? ¿Cómo saben cuándo es el momento?
6. Destruir: elimine los datos del almacenamiento y elimine las copias compartidas de los datos.
¿Deberían alguna vez deshacerse de algún dato? Si es así, cuándo y cómo?
“Proceso de análisis de datos”
1. Preguntar
- Haz preguntas efectivas:
- ¿Cuál es la causa raíz del problema? ¡Five Whys!
- SMART & unbiased questions. Also look for objectives, audience, time, resources, and security.
- Mantén enfoque: 1) ¿Quiénes son los interesados primarios y secundarios? 2) ¿Quién está gestionando los datos? 3) ¿A dónde puedo ir por ayuda?
- Comunícate con otros!
- Escuchar, hablar, presentar y escribir.
- Conoce tu audiencia: ¿Quién es tu audiencia? ¿Qué es lo que ya saben? ¿Qué necesitan saber? ¿Cuál es la mejor forma de comunicar lo que necesitan saber?
- Aclara requisitos. establece expectativas (especialmente de interesados y directivos), y reconoce los límites de tus datos.
- Discute metas (realistas y objetivas) y posibles problemas. Ten el poder de decir no. Planea para lo inesperado. Conoce tu proyecto. Empieza con palabras y visuales. Comunica seguido tus procesos.
- Tipos de interesados: equipo ejecutivo, equipo de cara al cliente, equipo de ciencia de datos.
- Dirigir reuniones:
- Tips reuniones: asiste preparado, llega a tiempo y presta atención, haz preguntas.
- Antes de la reunión: identifica el objetivo, reconoce a los participantes y mantenlos involucrados, organiza los datos a presentar, prepara y distribuye una agenda que contenga: nombre, proyecto, datos de contacto, quienes atienden, razón de la reunión, metas, preguntas, pasos siguientes.
- Durante la reunión: haz introducciones, presenta los datos, discute observaciones-interpretaciones-implicancias de los datos, toma notas y determina y resume los siguientes pasos para el grupo. Discusión es esencial para resolver conflictos(oportunidades): ¿Cómo podemos llegar a la meta? ¿Hay otras cosas importantes que considerar? Si no entiendes lo que te están pidiendo pregunta cuál es la meta final.
- Después: Distribuye tus notas, confirma las acciones siguientes y su línea del tiempo, pregunta por retroalimentación.
- Define el problema y entiende las expectativas de las partes interesadas.
- 6 tipos de problemas:
- Hacer predicciones.
- Categorizar cosas.
- Identificar temas.
- Detectar algo inusual.
- Descubrir conexiones.
- Encontrar patrones.
- Dominio del problema. Entender objetivo, intereses, problema y relaciones + disponibilidad, fuentes, orden y flujo de datos.
- Contexto. Identifica: quien, como, donde, cuando, porque, como.
- 6 tipos de problemas:
- Usa pensamiento estructurado.
- 1) reconocer el problema o situación actual, 2) organizar información disponible, 3) revelar brechas y oportunidades, 4) identificar tus opciones.
- Pensamiento matemático: Paso a paso. Métricas. Datos pequeños o grandes.
- Scope of Work (SOW): un esquema acordado del trabajo que va a realizar en un proyecto. Incluye = entregables, cronograma, hitos e informes.
- Statement of Work (SOW): documento que identifica claramente los productos y servicios que un proveedor o contratista proporcionará a una organización. Incluye objetivos, lineamientos, entregables, cronograma y costos.
- Excel
- Esenciales que se usarán: organizar y filtrar datos, tablas pivot, formula (+, -, *, /), funciones (sum, avg, count, min, max, etc.)
- Evita errores (tipos de error): filtra datos, congela encabezados, crea una tabla de datos crudos y otra con los datos que necesites, encuentra errores en datos con formateo condicional
2. Preparar
- Entiende como los datos son generados y coleccionados.
- Datos se están generando constantemente: entrevistas, formas, cuestionarios, encuestas, investigación, cookies, flujos de datos, etc. Dependiendo del trabajo, se te brindarán datos o tendrás que determinar que datos colectar basándote en la tarea o problema y buscar aprobación: datos propios, datos de 2da parte, datos de 3ra parte.
- Seleccionado los datos correctos: ¡Datos relacionados a intereses y problema! ¿Cómo serán coleccionados los datos? ¿Qué fuentes de datos? ¿Cuántos datos coleccionar (población&sample)? ¿Periodo de tiempo?
- Prepara los datos correctamente.
- Identifica y usa diferentes tipos de formatos, tipos y estructuras.
- Formatos: quanti&quali, discreta&continua / nominal&ordinal / interna&externa / primaria&secundaria / NOestructurado&Estructurado.
- (Avanzado) Modelado de datos: diagramas que representan como los datos están estructurados: 1) Modelado de datos conceptual. 2) Modelado lógicos de datos. 3) Modelado físico de datos. TÉCNICAS: entity relationship diagram, unified modeling language, data dictionary.
- Identifica y usa diferentes tipos de formatos, tipos y estructuras.
- Tipos de Datos, Campos y Valores:
- números (int, float), texto(strings), boolean (True – False & operators like AND, OR, NOT), fechas, $$, etc.
- Bases de datos:
- Estructura sencilla: filas, columnas, y campos/celdas.
- Datos Anchos (mejor para almacenar una gran cantidad de variables sobre cada tema) o Datos Largos (mejor para crear tablas y gráficos con pocas variables sobre cada tema).
- Transformación de datos: proceso de cambiar el formato, la estructura o los valores de los datos. Incluye: 1) agregar, copiar o replicar datos. 2) borrar campos o registros. 3) estandarizar nombres de variables. 4) cambiar el nombre, mover o combinar columnas. 5) unir una base de datos con otra (concat, joins). 6) guardar un archivo en un formato diferente (CSV).
- Bases de datos relacionales y no relacionales. Llaves primarias y secundarias.
- Puedes trabajar con bases de datos internas o externas.
- Es posible que necesites datos de muchas fuentes y departamentos diferentes, incluidos ventas, marketing, gestión de relaciones con los clientes, finanzas, recursos humanos e incluso los archivos de datos. Los datos internos tienen muchas ventajas para una empresa.
- Cuando los datos internos no son suficientes, empiezas a buscar datos externos. Existen diversos métodos para unificar datos externos a tu base de datos. Descargar y ordenar metadatos. Webscraping. Data abierta.
- Asegúrate que los datos sean imparciales y creíbles.
- Bias: El sesgo de datos es un tipo de error que sesga sistemáticamente los resultados en una determinada dirección. Tu siempre busca imparcialidad.
- Tipos de parcialidades – SESGO DE: muestreo, observación, interpretación, confirmación.
- Buenas fuentes de datos – COCAC: confiable, original, completa, actual, citada.
- 6 aspectos de la ética de datos: Propiedad. Transparencia de transacciones. Consentimiento. Divisa. Privacidad. Apertura. + Anonimización de datos: implica borrar, codificar, enmascarar u ocultar información personal. Ojo con industrias sensibles (finanzas, legislación, salud, etc.).
- Datos abiertos: se refiere al libre acceso, uso e intercambio de datos. Debe estar disponible en su totalidad, debe permitir el reúso y redistribución, debe tener participación universal. Su ventaja es combinarse con otros datos para fortalecerlos.
- Organiza y protege tus datos.
- Beneficios de organizar: 1) Datos fáciles de encontrar y usar. 2) Ayuda a evitar errores durante tu análisis. 3) Ayuda a proteger la información.
- Procedimientos para ordenar: 1) Convenciones de nombres consistentes (archivos lógicos y descriptivos) 2) Carpetas ordenadas. 3) Archivar archivos viejos. 4) Desarrollar prácticas de metadata. // 5) Usa bases de datos relacionales para evitar duplicación y almacenar datos de manera eficiente. 6) Organiza tus datos clasificándolos con nombres que sean significativos y tengan una jerarquía.
- Mejores prácticas para convenciones de nombres de archivos: Aclarar nomenclatura de archivos. Alinea los nuevos archivos con la nomenclatura existente. Nombre de archivos significativos. Considera formato de fechas (yyyymmdd). Crea un archivo que describa el orden. EVITA espacios, caracteres especiales. Mejor usa líneas, guiones bajos o mayúsculas.
- Una vez que los datos están organizados atiendes la seguridad: proteger de acceso no-autorizado y corrupción. // Medidas de seguridad: encriptación & tokenización.
3. Procesar
- Mantener la integridad de los datos.
- La integridad de los datos es la precisión, integridad, consistencia y confiabilidad de los datos a lo largo de su ciclo de vida.
- Se puede ver comprometida por: replicación, transferencia, manipulación; y por error humano, viruses, programa maligno, hacking y fallas de sistema (ingenieros de datos).
- La integridad de los datos es la precisión, integridad, consistencia y confiabilidad de los datos a lo largo de su ciclo de vida.
- Prueba tus datos, supera desafíos y transforma tus datos.
- Si los datos no se han limpiado correctamente, no se podrán usar adecuadamente todavía. Con datos incompletos, es difícil ver la imagen completa para tener una idea real de lo que está pasando.
- Revisa tus objetivos y no confíes por completo en tus datos al inicio.
- Si los datos no se han limpiado correctamente, no se podrán usar adecuadamente todavía. Con datos incompletos, es difícil ver la imagen completa para tener una idea real de lo que está pasando.
Clean data + alignment to business objective = accurate conclusions.
- Lidiar con datos insuficientes:
- Si no tienes datos suficientes, puedes identificar tendencias con los datos disponibles y calificar tus hallazgos en consecuencia. Los analistas de datos no crean sus propias bases de datos, al menos que se les solicite expresamente.
- Tipos de datos insuficientes: datos de una sola fuente, datos que se actualizan, datos desactualizados, datos limitados geográficamente.
- Manera de abordar los datos insuficientes: Identifica tendencias en los datos disponibles. Espera por más datos si el tiempo lo permite. Hablar con interesados y directivos para ajustar objetivos. Busca una nueva base de datos.
- Lidiar con Problemas en tus datos:
- No hay datos: colecciona datos en una escala pequeña para hacer un análisis preliminar, y luego solicitar más tiempo para coleccionar más datos. Si no hay tiempo para coleccionar, usa datos proxy.
- Muy pocos datos: has el análisis complementando con datos proxy. Ajusta tu análisis para que encaje con tus datos.
- Datos incorrectos & con errores: si el error es por desalineación con objetivos, comunica los requerimientos otra vez. Identifica errores en los datos y, si es posible, corrígelos en la fuente buscando un patrón en los errores. Si no puedes corregir tus datos y tu base de datos es grande, ignora los datos incorrectos y lleva a cabo tu análisis.
- Tamaño de la muestra: Población son todos los valores de datos posibles dentro de un determinado conjunto de datos (no siempre se puede obtener información de una población entera).
- Cuando usas tamaño de muestra usas una parte de la población que es representativa de ésta para conseguir información suficiente para hacer predicciones y tomar conclusiones de una población completa (muestreo random & usa calculadoras de tamaño de muestra: input = nivel de confianza 90%+, tamaño población +30 y margen de error). Otros conceptos importantes: intervalo de confianza, significancia estadística y rango estimado de respuesta. Poder estadístico arriba de 0.8 = 80% para que resultados de una prueba sea relevante.
- Limpia tus datos: introducción
- Fuente de error principal = error humano. Los datos limpios son datos completos, correctos y relevantes para el problema que intenta resolver. Datos sucios es la misma definición en opuesto.
- Checklist de limpieza de datos: Reconocer los objetivos comerciales y corregir la fuente del error. Análisis de bases de datos del sistema. Mapeo y fusión de datos (si es necesario): combinación de dos conjuntos de datos y búsqueda de compatibilidad.
- ¿Cómo se suelen presentar los datos sucios?
- Valores duplicados.
- Campos en blanco (NULL): valores faltantes.
- Datos incorrectos-inexactos (en relación con los valores permitidos).
- Datos obsoletos.
- Formato inconsistente + Formato de la empresa.
- Investigación para corregir datos faltantes.
- Investigación para corregir datos sucios.
- Remedia tus datos sucios, VECC=Validez: usar principios de integridad de datos para garantizar que las medidas se ajusten a las reglas o restricciones comerciales definidas. Exactitud: El grado de conformidad de una medida con un estándar o un valor real. Completitud: El grado en que se conocen todas las medidas requeridas. Consistencia: El grado en que un conjunto de medidas es equivalente entre sistemas.
- Empieza a limpiar tus datos. Comenzar a pulir = clasificar y filtrar. (Mainly Excel)
- Haz una copia de tu base de datos, “Backup”.
- (Documentar Errores)
- Remover duplicados: aparecen cuando combinas bases de datos o datos de diferentes departamentos.
- Remover datos irrelevantes: descubre la diferencia entre los datos que necesitas y los que no.
- Remover espacios blancos y extras: la presencia de estos puede dar resultados confusos. TRIM & filtros.
- Separar o unir substrings (LEFT, RIGHT, MID, CONCATENATE, SPLIT).
- Corregir faltas de ortografía, mayúsculas inconsistentes, puntuación incorrecta y otros errores tipográficos con corrector ortográfico, autocorrección y formato condicional.
- Remover formato: particularmente importante cuando consigues datos de diversas fuentes. Busca consistencia tanto desde el formato hasta la apariencia. Desde ahí ordenar.
- Use tablas de trazado (plotting) y pivote.
- Funciones Relevantes: FormatoCondicional, COUNT IF, LEN, , IF-THEN-ELSE, VLOOKUP, INDEX-MATCH
- Limpiar datos de múltiples fuentes (muy común en analistas de datos): Fusionar datos es un proceso de combinar dos o más conjuntos de datos en un solo conjunto de datos.
- Mapeo de datos: el proceso de hacer coincidir una base de datos con otra. El primer paso para el mapeo de datos es identificar qué datos se deben mover. Esto incluye las tablas y los campos dentro de ellas. También se debe definir el formato para los datos, una vez que lleguen a la tabla.
- Recuerda: Esquema=forma de describir como algo está organizado. LlavePrimaria=hace referencia a una columna en donde cada valor es único. LlaveExterna=un campo dentro de una tabla que es una clave principal en otra tabla.
- Pasos para mapeo de datos: 1) determinar contenido de cada sección. 2) Concatenar para un formato consistente. 3) Transferir los datos (SQL, import wizards, arrastrar y soltar, etc.). 4) Testeo (validación, formato condicional, COUNTIF, clasificar y filtrar). 5) lista para uso.
- Errores al limpiar datos: 1) No verificar errores ortográficos. 2) Olvidar documentar errores. 3) No comprobar valores erróneos. 4) Pasar por alto valores perdidos. 5) Mirar un subconjunto de datos y no la imagen completa. 6) Perder rastro de objetivos comerciales. 7) No arreglar la fuente de error. 8) No analizar un sistema, previo a la limpieza de datos. 8) No hacer una copia de seguridad antes de la limpieza. 9) No tener en cuenta la limpieza de datos en tus plazos de entrega.
- (avanzado) Automatizar el flujo de trabajo: El primer paso para el mapeo de datos es identificar qué datos se deben mover. Esto incluye las tablas y los campos dentro de ellas.
- Siempre intenta optimizar el flujo de datos desde el lugar donde vive o donde se generan los inputs.
- Automatización Completa: Exploración de datos y preparación y limpieza de datos.
- Automatización Parcial: Modelado de datos.
- Limpia tus datos con SQL:
- SQL es el lenguaje estándar de comunicación de base de datos relacional. Es la manera de extraer datos de bases de datos. Entiende el lenguaje estándar de SQL, y luego aprende dialecto específico. Consultas básicas:
- SELECT-FROM-WHERE, INSERT INTO, UPDATE, CREATE TABLE, DROP TABLE.
- To clean string variables: DISTINCT, LENGTH/LEN, SUBSTR, TRIM.
- Funciones avanzadas de limpieza: CAST: cambiar tipo de datos. CONCAT: join and create new strings. COALESCE: returns non-null values in a list.
- Errores en SQL: 1) typos: error más común; revisa los signos de exclamación que te dan pistas, luego da un chequeo de atento de typos, y finalmente confirma si la syntax es correcta. 2) Borrar todos los datos: trabaja siempre con un archivo de respaldo. Cuando haces updates asegúrate que estés referenciando una fila, columna o grupo de datos específicos. También, antes de borrar intenta entender porque los datos están sucios o ausentes con tus compañeros. 3) Olvidar donde poner/sacar las comillas: practica y entiende bien la sintaxis del SQL específico con el que estés trabajando. 4) Orden de consulta invalido: practica y apóyate de IA para confirmar los pasos al usar una herramienta en específico.
- SQL es el lenguaje estándar de comunicación de base de datos relacional. Es la manera de extraer datos de bases de datos. Entiende el lenguaje estándar de SQL, y luego aprende dialecto específico. Consultas básicas:
- Verificar e informar sobre los resultados de la limpieza.
- Verificación: proceso para verificar que el esfuerzo de limpieza fue bien ejecutado. Re-checar tu base de datos que fue limpiada y hacer limpiezas manuales si es necesario.
- Pasos: 1) comparar base de datos antes de limpieza con la nueva limpia. 2) Toma una vista panorámica de tu proyecto y confirma conexión con el objetivo del proyecto.
- Reportar tus esfuerzos: reportes transparentes y eficientes.
- Recuerda desarrollar un registro de cambios: archivo que contiene una lista cronológica de los cambios hechos en un proyecto.
- Últimos pasos en la limpieza de datos: limpiar datos manualmente.
- Cuando un problema se repite y no se puede resolver rápidamente. Aquí puedes crear una tabla de pivote. Agrega un valor y resume con COUNTA: cuenta el número total de valores dentro de un rango específico; o COUNT: cuenta valores numéricos dentro de un rango. La tabla pivote puede contar el número de errores ortográficos y exponer los errores.
- Otras herramientas útiles: Excel: buscar y reemplazar, TRIM, RemoveDuplicates. SQL: CASE = pasa por una o más condiciones y vuelve un valor cuando las condiciones son cumplidas.
- Checklist de verificación de limpieza de datos: asegúrate de identificar y corregir los problemas más comunes.
- Fuentes de errores, Nulls, errores ortográficos, número mal escritos, espacios y/o carácteres extra, duplicados, tipos de datos no coincidentes, strings inconsistentes, formatos inconsistentes, etiquetas de variables confusas (columnas), datos truncados, lógica de negocio.
- Documentar resultados y proceso de limpieza:
- Mantener registro de los cambios es importante para cada proyecto. Esto brinda tres cosas importantes: 1) nos permite recuperar errores de limpieza de datos. 2) la documentación permite informar a otros usuarios que cambios se han hecho. 3) la documentación te permite determinar la calidad de los datos que serán usados en el análisis.
- Changelog (registro de cambios): un archivo que contiene una lista ordenada cronológicamente de los cambios.
- Aspectos: 1) versión automatizada incluida en softwares (track changes in excel). 2) Incluyen: datos, archivo, formula, consulta o cualquier componente cambiando. Descripción del cambio, fecha, persona encargada, persona que aprobó, número de versión, y razón del cambio.
- Changelogs se escriben en MarkDown: Archivo “read me” escrito para humanos. Cada cambio tiene su propia línea. Orden cronológico. Los tipos de cambio tienen sus propias categorías; ordena y divide así.
- Agregado: nuevas características introducidas.
- Cambiado: cambios en la funcionalidad existente.
- Desuso: funciones a punto de eliminarse.
- Eliminado: funciones que se han eliminado.
- Corregido: correcciones de errores.
- Seguridad: reducción de vulnerabilidades.
- Usa feedback para el bien de los datos: Los comentarios que recibimos cuando informamos sobre nuestra limpieza pueden transformar los procesos de recopilación de datos y, en última instancia, el desarrollo comercial.
- Verificación: proceso para verificar que el esfuerzo de limpieza fue bien ejecutado. Re-checar tu base de datos que fue limpiada y hacer limpiezas manuales si es necesario.
4. Analizar
Proceso utilizado para dar sentido a los datos recopilados. Significa dar los pasos correctos para proceder y pensar en tus datos de diferentes maneras. El objetivo es analizar tendencias y relaciones para responder tus preguntas y tomar decisiones basadas en datos.
- Ordenar y filtrar datos: ve directo a los datos relevantes.
- La mayoría de los datos que utilizarás estarán organizados en tablas: estas ayudan a organizar datos similares en categorías y áreas temáticas para enfocarte en tu análisis. La estructura de tu base de datos puede ayudarte a decidir qué tipos de datos consultar. Una vez que tus datos están organizados y formateados, estás listo para ordenar y filtrar los datos que necesitas.
- Clasificar: organizar los datos en un orden significativo y en función de una métrica significativa con el fin de entender, analizar y visualizar mejor tus datos.
- Filtrar: usado solo cuando estás interesado en ver datos que cumplen un criterio específico. Muy útil cuando tienes muchos datos, enfocándote en los datos más importantes o los que tienen errores o valores atípicos.
- Excel: orden ASC y DESC, por Color, FormatoCondicional, por Rango. Dos métodos: 1) Usar el menú de “Custom Sort” y para listas personalizadas ve a preferencias y “Custom Lists”. 2) Escribir la función “=SORT”.
- SQL: WHERE clause (and, or), ORDER BY (desc, asc), LIMIT x.
- Usa herramientas para formatear y ajustar datos: filtrar y ordenar tus datos para hacerlos digeribles.
- Convertir y formatear datos:
- Excel: convertir de acuerdo con necesidades. Ej: cambiar números a fechas, strings, porcentajes o moneda. Atento a inconsistencias en tipos de datos/medidas.
- Cuando agregas/cambias datos a una tabla usando formulas, recuerda pegar los datos como valores, así los anclas. De otra manera la celda queda como formula y puede ser confuso.
- Excel – “data validation function” (diferente a: data validation process): esta función permite controlar que entra y que no entra a la hoja de cálculo. Agrega listas drop-down, crea checkboxes, y protege datos estructurados y formulas.
- Excel – “conditional formatting”: herramienta que permite cambiar como las celdas aparecen cuando los valores cumplen condiciones específicas. Aprovecha el uso de códigos de color aquí.
- SQL: 1) ROUND: limitar el registro a un determinado número de decimales. 2) CONCAT: agregar cadenas para crear nuevas cadenas que se pueden usar como claves únicas. 3) CONVERT: cambiar la unidad de medida de un valor en datos. 4) LIMIT: devuelve un determinado número de registros. 5) JOIN: combina filas de dos o más tablas en función de una columna relacionada. 6) CAST: convierte los datos que seleccionados a un tipo de datos diferente. Ej: SELECT CAST (MyCount AS STRING) FROM MyTable. Ojo con las reglas de conversión en estándar SQL las cuales indican valores numéricos, strings y fecha.
- Excel: convertir de acuerdo con necesidades. Ej: cambiar números a fechas, strings, porcentajes o moneda. Atento a inconsistencias en tipos de datos/medidas.
- Convertir y formatear datos:
- Agregar datos para análisis
- La agregación de datos es el proceso de recopilar datos de múltiples fuentes para combinarlos en una sola colección resumida. Los datos también se pueden agregar durante un período de tiempo determinado para proporcionar estadísticas como promedios, mínimos, máximos y sumas.
- Excel VLOOKUP: función de agregación que busca un determinado valor en una columna para devolver la información correspondiente. Ej: =VLOOKUP (103,A2:B26,2,False). 103= valor de búsqueda. A:B26:=rango. 2= número para indicar columna (no usa letras). False= match exacto. True: match cercano.
- Uno de los usos más comunes: poblar datos de una hoja de datos en otra. Ej: =vlookup (A2,‘other sheet’!$A$2:$B$5,2, FALSE). “`othersheet`!” referencia a otra hoja. $A$2:$B$5: rango. los signos de dólar bloquean el rango para evitar cambios al copiar la fórmula a otras celdas. 2: busque una coincidencia en la segunda columna. Falso: coincidencia exacta.
- Errores y limitantes VLOOKUP: Sola busca el primer valor que encuentra. Solo vuelve datos a la derecha. No poner referencias absolutas $$. Cambios inesperados en la hoja de cálculo.
- RECOMENDACIÓN: aprende a usar la función Index-Match.
- Bases de datos relacionales: nos referimos a estos valores como llaves primarias (hacen referencia a columnas en las que cada valor es exclusivo de esa tabla) y foráneas (llaves primarias en otras tablas).
- Alias – “Aliasing”: es el proceso de usar alias. En las consultas SQL, los alias se implementan haciendo uso del comando AS. Se pueden usar tanto en la cláusula SELECT como en WHERE.
- Joins para agregar datos en SQL:
- JOIN es una cláusula SQL que se usa para combinar filas de dos o más tablas en función de una columna relacionada. En clausula WHERE usando ON (identifica como las tablas harán el match para que se combinen la información correcta). Piensa en JOIN como una versión SQL de VLOOKUP.
- Cuatro JOINs comunes: 1) INNER: una función que devuelve registros con valores coincidentes en ambas tablas. Los registros solo se mezclarán si hay matches en ambas tablas. 2) LEFT: devuelve todos los registros de la tabla de la izquierda y solo los registros coincidentes de la tabla de la derecha. 3): RIGHT: Lo opuesto. 4) OUTER: combina RIGHT y LEFT JOIN para devolver todos los registros coincidentes en ambas tablas. Si hay registros sin matches se crearán registros sin valores para la tabla nueva.
- SQL COUNT & COUNT DISTINCT: se usan cada vez que quieras responder preguntas de “Cuanto/s”.
- COUNT: es una consulta que devuelve el número de filas en un rango específico. COUNT DISTINCT: es una consulta que solo devuelve los valores distintos en ese rango.
- Se usan en diferentes fases del proceso de análisis de datos: 1) cuando estás limpiando los daros para saber cuántas filas hay en tu conjunto de datos. 2) En el proceso de análisis para contestar preguntas de “Cuanto”.
- SQL Subqueries: muñeca rusa de anidación.
- Aspectos: Paréntesis son usados para iniciar y finalizar una subconsulta. Anidadas en las cláusulas básicas. Los operadores de comparación como >, < o = ayudan a comparar datos en subconsultas, y también puedes usar varios operadores de fila, incluidos IN, ANY o ALL. La instrucción que contiene una subconsulta es una consulta externa; las subconsultas están anidadas dentro de estas declaraciones, llamadas consultas internas o selección interna. La consulta interna se ejecuta primero. Para que una subconsulta compare varias columnas, esas columnas deben seleccionarse en la consulta principal.
- Subconsultas para agregar datos: La función WHERE no se puede usar con funciones agregadas. puedes usar WHERE en una declaración y seguirla con GROUP BY. Pero cuando quieres usar GROUP BY primero y luego WHERE en esa salida, necesitas una función diferente. Aquí es donde entra HAVING.
- HAVING: permite agregar un filtro a su consulta en lugar de la tabla subyacente cuando trabaja con funciones agregadas. Solo devuelve registros que cumplen con sus condiciones específicas.
- CASE: devuelve registros con sus condiciones al permitirle incluir declaraciones IF/THEN en su consulta.
- Funciones de SQL: son herramientas integradas en SQL para hacer posible la realización de cálculos. Estas funciones pueden hacer posible la agregación de datos en SQL (HAVING, CASE, IF, COUNT)
- SQL: Cálculos de datos
- JOINS, Aggregator like SUM and COUNT, GROUP BY with aggregators, HAVING, ORDER BY, LIMIT, CASE statements, IF statements, COALESCE function, Creating and deleting tables.
- Temporary tables: la versión de los “post-its” en SQL. Es una tabla de base de datos que se crea y existe temporalmente en un servidor de base de datos; esta es automáticamente borrada cuando terminas tu sesión de consulta en SQL. Son útiles cuando solo se necesita una tabla por un corto tiempo para completar tareas de análisis, como cálculos; para recolectar resultados en consultas temporales; y cuando necesitas trabajar con un subconjunto de datos pequeño de tu base de datos.
- Puedes utilizar la cláusula WITH para generar consultas varias veces. WITH xxx SELECT x FROM y WHERE z, y puedes incluir subqueries.
- SELECT INTO: esta declaración copia los datos de una tabla en una tabla nueva, pero no agrega la tabla nueva a la base de datos. Es útil si desea hacer una copia de una tabla con una condición específica, como una consulta con una cláusula WHERE. SELECT * INTO x FROM y WHERE z = u.
- CREATE TABLE: útil si muchas personas estarán usando la tabla. Esta declaración si agrega una tabla en la base de datos. Siempre que agregues datos explica con metadatos la tabla que has creado.
- Excel: Cálculos de datos
- Fill Handle, Formato Condicional, SUM, AVERAGE, MIN, MAX, COUNTIF (devuelve el número de celdas que coinciden con un valor especificado), COUNTIFS (countif, pero con múltiples condiciones), SUMIF (función que agrega datos numéricos basados en una condición), VLOOKUP. Para funciones más complejas combina IF, AND, OR, NOT.
- Analiza datos con tablas de Pivote: Las tablas dinámicas le permiten dar sentido a grandes conjuntos de datos al brindarle herramientas para comparar métricas fácilmente, realizar cálculos rápidamente y generar informes legibles. Pueden servir para responder preguntas específicas de tu conjunto de datos. En estas tablas puedes realizar cálculos básicos, ordenar, filtrar y formatear tus datos. Para más info checar Notion Google DA C5.
- Proceso de validación de datos
- Te permite controlar que entra y que no a tu hoja de trabajo. Uno de sus usos es proteger datos estructurados y formulas en tus hojas de cálculo. Este proceso implica verificar y volver a verificar la calidad de sus datos para que sean completos, precisos, seguros y consistentes. Existen 6 tipos de validación de datos:
- Tipo de datos: Verifica que los datos coincidan con el tipo de datos definido para un campo.
- Rango de datos: Verifica que los datos estén dentro de un rango aceptable de valores definidos para el campo.
- Restricciones de datos: Verifica que los datos cumplan con ciertas condiciones o criterios para un campo. Esto incluye el tipo de datos ingresados, así como otros atributos del campo, como el número de caracteres.
- Consistencia de datos: Verifica que los datos tengan sentido en el contexto de otros datos relacionados.
- Estructura de datos: Comprueba que los datos siguen o se ajustan a una estructura establecida.
- Validación de código: Comprueba que el código de la aplicación realiza sistemáticamente alguna de las validaciones mencionadas anteriormente durante la entrada de datos del usuario.
- Te permite controlar que entra y que no a tu hoja de trabajo. Uno de sus usos es proteger datos estructurados y formulas en tus hojas de cálculo. Este proceso implica verificar y volver a verificar la calidad de sus datos para que sean completos, precisos, seguros y consistentes. Existen 6 tipos de validación de datos:
5. Compartir
- Entender visualización.
- La visualización de datos es la representación y presentación gráfica de datos. Reglas de oro: tu audiencia debe saber exactamente que está viendo después de 5 segundos. Organiza tus pensamientos, piensa en los objetivos, reconoce patrones (puntos clave y la unificación de todo), conclusiones y elementos clave.
- MUESTRA: lo que la audiencia necesita siempre y cuando no sea engañoso; cambios a lo largo del tiempo; formas de distribución; ranquea y resalta; correlaciones.
- McCandless Method para pensamientos ordenados: información, narrativa, objetivo, forma visual.
- 1) Introduce gráficos por nombre. 2) Responde preguntas obvias antes de que sean preguntadas. 3) Indica la información que proporciona tu data viz. 4) Nombra los datos que respaldan esa idea. 5) Dile a tu audiencia porqué importa.
- Tipos de gráficos: Para comparar datos a través del tiempo: líneas, barras, barra apilada, área. Para comparar objetos distintos: barra ordenada, columnas ordenadas, barra agrupada. Para composición: barras apiladas, donas, áreas apiladas, gráficos circulares, mapas de árboles. Para relaciones: diagrama de dispersión, burbuja, columna/línea, mapa de calor. ETC.
- Agrega: Atributos preatención, marcas (puntos, líneas y formas), canales (aspectos visuales/variables que representan características de los datos).
- Visualizaciones estáticas: no cambian al menos que sean editadas. Sirven cuando quieres controlar tus datos y su historia. Visualizaciones dinámicas: interactivas y cambian con el tiempo. Balance entre interactividad y control.
- La visualización de datos es la representación y presentación gráfica de datos. Reglas de oro: tu audiencia debe saber exactamente que está viendo después de 5 segundos. Organiza tus pensamientos, piensa en los objetivos, reconoce patrones (puntos clave y la unificación de todo), conclusiones y elementos clave.
- Crear visualizaciones efectivas:
- Principios de diseño: líneas, tamaño, color, espacio, movimiento // Mientras creas tu viz: balance, énfasis, movimiento (ojos), patrones, repetición, proporción // Para chequeos post: ritmo, variedad y unidad.
- Para impactar: Escoger la viz correcta se resume a una pregunta ¿Cuál hará que sea más fácil para la audiencia entender el punto que estás tratando de enseñar?
- 5 pasos al crear visualizaciones: 1) Enfatizar. 2) Definir. 3) Idear. 4) Prototipo. 5) Testear.
- Agrega a tus viz: título, subtitulo, etiquetas (leyenda o anotación).
- Creación de historias de datos:
- Los números son de gran importancia en el mundo de negocios, pero es esencial comunicarlos de una manera atractiva. La narración de datos comunica el significado de un conjunto de datos con imágenes y una narrativa que se personalizan para cada audiencia en particular. Se divide en 3 pasos:
- Involucra a tu audiencia.
- Crea imágenes convincentes y atractivas.
- Cuenta la historia en una narrativa interesante.
- Piensa siempre en la audiencia: ¿Qué rol tiene? ¿Cuál es su interés en el proyecto? ¿Qué esperan de la presentación? SPOTLIGHTING: escanear tus datos para identificar los insights más importantes – usa sticky notes, busca ideas y mensajes universales, patrones, conceptos relevantes, y explora tus descubrimientos.
- Los números son de gran importancia en el mundo de negocios, pero es esencial comunicarlos de una manera atractiva. La narración de datos comunica el significado de un conjunto de datos con imágenes y una narrativa que se personalizan para cada audiencia en particular. Se divide en 3 pasos:
- Comunicarse para ayudar a otros a comprender los resultados:
- Haz tu presentación interesante con: 1) Personajes: personas afectadas por tu historia. 2) Setting: describe que es lo que está pasando, donde y que situaciones están envueltas. 3) Plot: también llamado “conflicto”, son conflictos, desafíos y oportunidades. 4) La gran revelación o resolución: muestra como los datos pueden resolver el problema que los personajes enfrentan, volviéndose más competitivos, mejorando procesos, inventando un nuevo sistema o logrando cumplir cual sea la meta. 5) Momento “Aha!”: compartes recomendaciones y explicas porque pueden ayudar a la organización a ser exitosa.
- Ordena tus diapositivas: 1) Agenda. 2) Propósito. 3) Análisis de datos. 4) Recomendaciones. 5) Llamado a la acción.
- Tu presentación = profesional y atractiva: temática, títulos y subtítulos, fecha, índex (flow usando tabla de contenidos), tamaño de letra adecuado e idealmente 5 líneas de texto y 25 palabras como máximo. Agrega tus visuales pro. Diapositivas con transición y viñetas animadas. Progresión y lógica.
- FINALMENTE: evalúa tus diapositivas y tu presentación verbal.
- Presenta con un marco de trabajo: inicia de la comprensión de la tarea del trabajo. Su propósito es hacer conexiones lógicas que se amarren con el objetivo del negocio. Asegúrate de estar conectado con las métricas de tu negocio.
- Tejiendo datos en tus presentaciones: 1) Ayúdale a tu audiencia a entender que datos estaban disponibles durante la colección. 2) Establece tu hipótesis inicial. 3) Explica la solución.
- Tips al presentar: 1) Conoce tu flujo: una buena historia de datos debe tener una temática y flujo, puntos interesantes de dialogo y un gran final o revelación. 2) Prepara tus puntos de conversación (speaker notes). 3) Termina con recomendaciones.
- Anticipa preguntas y objeciones:
- Inicia por entender las expectativas de tus directivos e interesados.
- Práctica tu presentación e inclusive haz un test con colegas que no conozcan el trabajo, para que te den feedback.
- Trabaja con tus colegas un borrador para anticipar preguntas y objeciones.
- No asumas que tu audiencia jergas, siglas, eventos pasados u otra información básica necesaria.
- Manejando objeciones: 1) Sobre tus datos: pueden poner en duda de donde sacaste los datos, o quizá quieren saber cómo se dio la transformación. 2) Sobre tu análisis: quizá quieran saber si tu análisis es reproducible; por lo mismo siempre mantén un change-log disponible. Puedes poner estos pasos en un apéndice. 3) Sobre tus descubrimientos: cuestionamientos de novedad o preferencias y control de datos.
6. Actuar
- Aplica tus conocimientos.
- Resuelve problemas.
- Toma decisiones.
- Crea algo nuevo.