Descripción
Los métodos estadísticos son una parte fundamental de la ciencia de datos, pero pocos científicos de datos tienen una formación avanzada en estadística. Los cursos y libros sobre estadística básica rara vez tratan el tema desde la perspectiva de la ciencia de datos. La segunda edición de este libro incluye ejemplos detallados de Python, ofrece una orientación práctica sobre la aplicación de los métodos estadísticos a la ciencia de datos, te indica cómo evitar su uso incorrecto y te aconseja sobre lo que es y lo que no es importante.
Muchos recursos de la ciencia de datos incorporan métodos estadísticos, pero carecen de una perspectiva estadística más profunda. Si estás familiarizado con los lenguajes de programación R o Python y tienes algún conocimiento de estadística, este libro suple esas carencias de una forma práctica, accesible y clara.
Con este libro aprenderás:
Por qué el análisis exploratorio de datos es un paso preliminar clave en la ciencia de datos
Cómo el muestreo aleatorio puede reducir el sesgo y ofrecer un conjunto de datos de mayor calidad, incluso con Big Data
Cómo los principios del diseño experimental ofrecen respuestas definitivas a preguntas
Cómo utilizar la regresión para estimar resultados y detectar anomalías
Técnicas de clasificación esenciales para predecir a qué categorías pertenece un registro
Métodos estadísticos de aprendizaje automático que ‘aprenden’ a partir de los datos
Métodos de aprendizaje no supervisados para extraer significado de datos sin etiquetar
Peter Bruce es el fundador del Institute for Statistics Education en Statistics.com.
Andrew Bruce es científico investigador jefe en Amazon y tiene más de 30 años de experiencia en estadística y ciencia de datos.
Peter Gedeck es científico de datos senior en Collaborative Drug Discovery, desarrolla algoritmos de aprendizaje automático para pronosticar propiedades de posibles futuros fármacos.
Índice
Prefacio
1. Análisis exploratorio de datos
1.1. Elementos de datos estructurados
1.1.1. Lecturas complementarias
1.2. Datos rectangulares
1.2.1. Marcos de datos e índices
1.2.2. Estructuras de datos no rectangulares
1.2.3. Lecturas complementarias
1.3. Estimación de la localización
1.3.1. Media
1.3.2. Estimación de medianas robustas
1.3.3. Ejemplo: estimaciones de localización de la población y tasas de homicidios
1.3.4. Lecturas complementarias
1.4. Estimación de la variabilidad
1.4.1. Desviación estándar y estimaciones relacionadas
1.4.2. Estimación basada en percentiles
1.4.3. Ejemplo: estimaciones de variabilidad de la población estatal
1.4.4. Lecturas complementarias
1.5. Exploración de la distribución de datos
1.5.1. Percentiles y diagramas de caja
1.5.2. Tablas de frecuencias e histogramas
1.5.3. Diagrama y estimación de la curva de densidad
1.5.4. Lecturas complementarias
1.6. Exploración de datos binarios y categóricos
1.6.1. Moda
1.6.2. Valor esperado
1.6.3. Probabilidad
1.6.4. Lecturas complementarias
1.7. Correlación
1.7.1. Diagramas de dispersión
1.7.2. Lecturas complementarias
1.8. Exploración de dos o más variables
1.8.1. Agrupación hexagonal y contornos (representación numérica frente a datos numéricos)
1.8.1. Dos variables categóricas
1.8.2. Datos categóricos y numéricos
1.8.3. Visualización de varias variables
1.8.4. Lecturas complementarias
1.9. Resumen
2. Distribuciones de datos y muestreo
2.1. Muestreo aleatorio y sesgo de la muestra
2.1.1. Sesgo
2.1.2. Selección aleatoria
2.1.3. Tamaño frente a calidad: ¿cuándo importa el tamaño?
2.1.4. Media muestral frente a media poblacional
2.1.5. Lecturas complementarias
2.2. Sesgo de selección
2.2.1. Regresión a la media
2.2.2. Lecturas complementarias
2.3. Distribución muestral del estadístico
2.3.1. Teorema del límite central
2.3.2. Error estándar
2.3.3. Lecturas complementarias
2.4. Bootstrap
2.4.1. Remuestreo frente a bootstrapping
2.4.2. Lecturas complementarias
2.5. Intervalos de confianza
2.5.1. Lecturas complementarias
2.6. Distribución normal
2.6.1. Normal estándar y diagramas QQ
2.7. Distribuciones de cola larga
2.7.1. Lecturas complementarias
2.8. Distribución t de Student
2.8.1. Lecturas complementarias
2.9. Distribución binomial
2.9.1. Lecturas complementarias
2.10. Distribución chi cuadrado
2.10.1. Lecturas complementarias
2.11. Distribución F
2.11.1. Lecturas complementarias
2.12. La distribución de Poisson y distribuciones relacionadas
2.12.1. Distribución de Poisson
2.13.2. Distribución exponencial
2.14.3. Estimación de la tasa de fallos
2.15.4. Distribución de Weibull
2.16.5. Lecturas complementarias
2.13. Resumen
3. Experimentos estadísticos y pruebas significativas
3.1. Prueba A/B
3.1.1. ¿Por qué tener un grupo de control?
3.1.2. ¿Por qué solo A/B? ¿Por qué no C, D, …?
3.1.3. Lecturas complementarias
3.2. Pruebas de hipótesis
3.2.1. La hipótesis nula
3.2.2. Hipótesis alternativa
3.2.3. Pruebas de hipótesis unidireccionales o bidireccionales
3.2.4. Lecturas complementarias
3.3. Remuestreo
3.3.1. Prueba de permutación
3.3.2. Ejemplo: adherencia de la web
3.3.3. Pruebas de permutación exhaustiva y de bootstrap
3.3.4. Pruebas de permutación: el resultado final de la ciencia de datos
3.3.5. Lecturas complementarias
3.4. Significación estadística y valores p
3.4.1. Valor p
3.4.2. Alfa
3.4.3. Errores de tipo 1 y 2
3.4.4. Ciencia de datos y valores p
3.4.5. Lecturas complementarias
3.4. Pruebas t
3.4.5. Lecturas complementarias
3.4. Pruebas múltiples
3.4.5. Lecturas complementarias
3.4. Grados de libertad
3.4.5. Lecturas complementarias
3.5. ANOVA
3.5.1. Estadístico F
3.5.2. ANOVA bidireccional
3.5.3. Lecturas complementarias
3.6. Prueba de chi cuadrado
3.6.1. Prueba de chi cuadrado: enfoque de remuestreo
3.6.2. Prueba de chi cuadrado: teoría estadística
3.6.3. Prueba exacta de Fisher
3.6.4. Relevancia para la ciencia de datos
3.6.5. Lecturas complementarias
3.7. Algoritmo Multi-Arm Bandit
3.7.1. Lecturas complementarias
3.8. Potencia y tamaño de la muestra
3.8.1. Tamaño de la muestra
3.8.2. Lecturas complementarias
3.9. Resumen
4. Regresión y pronóstico
4.1. Regresión lineal simple
4.1.1. La ecuación de regresión
4.1.2. Valores ajustados y residuos
4.1.3. Pronóstico frente a explicación (elaboración de perfiles)
4.1.4. Lecturas complementarias
4.2. Regresión lineal múltiple
4.2.1. Ejemplo: datos de las viviendas del condado de King
4.2.2. Evaluación del modelo
4.2.3. Validación cruzada
4.2.4. Selección del modelo y regresión escalonada
4.2.5. Regresión ponderada
4.2.6. Lecturas complementarias
4.3. Pronóstico mediante la regresión
4.3.1. Los peligros de la extrapolación
4.3.2. Intervalos de confianza y de pronóstico
4.4. Variables de tipo factor en la regresión
4.4.1. Representación de variables ficticias
4.4.2. Variables de tipo factor con muchos niveles
4.4.3. Variables de tipo factor ordenadas
4.5. Interpretación de la ecuación de regresión
4.5.1. Predictoras correlacionadas
4.5.2. Multicolinealidad
4.5.3. Variables de confusión
4.5.4. Interacciones y efectos principales
4.6. Diagnósticos de regresión
4.6.1. Valores atípicos
4.6.2. Valores influyentes
4.6.3. Heterocedasticidad, anormalidad y errores correlacionados
4.6.4. Diagramas de residuos parciales y falta de linealidad
4.7.Regresión polinomial y por spline
4.7.1. Polinomial
4.7.2. Splines
4.7.3. Modelos aditivos generalizados
4.7.4. Lecturas complementarias
4.8.Resumen
5. Clasificación
5.1. Bayes ingenuo
5.1.1. Por qué la clasificación bayesiana exacta no es práctica
5.1.2. La solución ingenua
5.1.3. Variables predictoras numéricas
5.1.4. Lecturas complementarias
5.2. Análisis discriminante
5.2.1. Matriz de covarianza
5.2.2. Discriminante lineal de Fisher
5.2.3. Un ejemplo sencillo
5.2.4. Lecturas complementarias
5.3. Regresión logística
5.3.1. Función de respuesta logística y logit
5.3.2. Regresión logística y GLM
5.3.3. Modelos lineales generalizados
5.3.4. Valores pronosticados de regresión logística
5.3.5. Interpretación de los coeficientes y de la razón de oportunidades
5.3.6. Regresión lineal y logística: similitudes y diferencias
5.3.7. Evaluación del modelo
5.3.8. Lecturas complementarias
5.4. Evaluación de modelos de clasificación
5.4.1. Matriz de confusión
5.4.2. El problema de las clases raras
5.4.3. Precisión, exhaustividad y especificidad
5.4.4. Curva ROC
5.4.5. AUC
5.4.6. Sustentación
5.4.7. Lecturas complementarias
5.5. Estrategias para datos que no están equilibrados
5.5.1. Submuestreo
5.5.2. Sobremuestreo y aumento/disminución de la ponderación
5.5.3. Generación de datos
5.5.4. Clasificación basada en los costes
5.5.5. Exploración de pronósticos
5.5.6. Lecturas complementarias
5.6. Resumen
6. Aprendizaje automático estadístico
6.1. K-vecinos más cercanos
6.1.1. Un pequeño ejemplo: pronóstico del incumplimiento de préstamos
6.1.2. Métricas de distancia
6.1.3. Codificador One-Hot
6.1.4. Estandarización (normalización, puntuación z)
6.1.5. Elección de K
6.1.6. KNN como motor de características
6.2. Modelos de árbol
6.2.1. Un ejemplo sencillo
6.2.2. Algoritmo de partición recursiva
6.2.3. Medición de la homogeneidad o la impureza
6.2.4. Detención del crecimiento del árbol
6.2.5. Pronóstico de un valor continuo
6.2.6. Cómo se utilizan los árboles
6.2.7. Lecturas complementarias
6.3. Métodos de bagging y bosque aleatorio
6.3.1. Bagging
6.3.2. Bosque aleatorio
6.3.3. Importancia de la variable
6.3.4. Hiperparámetros
6.4. Boosting
6.4.1. El algoritmo boosting
6.4.2. XGBoost
6.4.3. Regularización: evitación del sobreajuste
6.4.4. Hiperparámetros y validación cruzada
6.5. Resumen
7. Aprendizaje no supervisado
7.1. Análisis de componentes principales
7.1.1. Un ejemplo sencillo
7.1.2. Cálculo de los componentes principales
7.1.3. Interpretación de componentes principales
7.1.4. Análisis de correspondencias
7.1.5. Lecturas complementarias
7.2. Agrupación K-means
7.2.1. Un ejemplo sencillo
7.2.2. Algoritmo K-means
7.2.3. Interpretación de los grupos
7.2.4. Selección del número de grupos
7.3. Agrupación jerárquica
7.3.1. Un ejemplo sencillo
7.3.2. El dendrograma
7.3.3. El algoritmo de aglomeración
7.3.4. Medidas de disimilitud
7.4. Agrupación basada en el modelo
7.4.1. Distribución normal multivariante
7.4.2. Mezclas de distribuciones normales
7.4.3. Selección del número de grupos
7.4.4. Lecturas complementarias
7.5. Variables categóricas y escalado
7.5.1. Escalado de variables
7.5.2. Variables dominantes
7.5.3. Datos categóricos y distancia de Gower
7.5.4. Problemas con la agrupación de datos mixtos
7.6. Resumen
8. Bibliografía