Introduccion a la estadistica avanzada: correlacion de Pearson, regresion lineal, distribucion normal, intervalos de confianza y pruebas de hipotesis.
El coeficiente de correlacion de Pearson (r) mide la fuerza y direccion de la relacion lineal entre dos variables. Va de -1 a +1. r=+1: correlacion positiva perfecta (ambas suben juntas). r=-1: correlacion negativa perfecta (una sube, la otra baja). r=0: sin correlacion lineal. Para temperatura y venta de helados: r≈+0.9 (alta correlacion positiva). Para horas de TV y calificaciones: r≈-0.6 (correlacion negativa moderada).
La recta de regresion y=mx+b minimiza la suma de cuadrados de los errores entre los puntos y la recta. La pendiente m=r×(Sy/Sx) donde Sy y Sx son las desviaciones estandar de cada variable. Si la altura (x) y el peso (y) de 100 personas dan m=0.8, cada cm adicional de altura corresponde a 0.8 kg mas de peso en promedio. Esta recta permite predecir el peso de una persona con cualquier altura.
La distribucion normal es simetrica y tiene forma de campana. Se describe completamente con su media μ y desviacion estandar σ. La regla 68-95-99.7: el 68% de los datos cae en μ±σ, el 95% en μ±2σ y el 99.7% en μ±3σ. Las calificaciones en examenes estandarizados, las alturas de adultos, el peso de productos industriales y miles de otras medidas siguen distribuciones aproximadamente normales.
Un intervalo de confianza del 95% para la media de una poblacion es: x̄ ± 1.96 × (σ/√n). Si la calificacion media de una muestra de 100 estudiantes es 72 con σ=10: IC 95% = 72 ± 1.96×(10/√100) = 72 ± 1.96 = (70.04, 73.96). Con 95% de confianza, la media verdadera de la poblacion esta entre 70 y 74. NO significa que el 95% de los estudiantes tiene calificacion entre 70 y 74.
La estadistica avanzada es la herramienta del pensamiento critico cuantitativo. Cualquier estudio medico, encuesta politica, investigacion de mercado o analisis de datos usa correlacion, regresion y distribucion normal. Saber interpretar estas herramientas permite evaluar las afirmaciones estadisticas que aparecen constantemente en noticias, publicidad y politica publica. La diferencia entre correlacion y causalidad, entre significancia estadistica y relevancia practica, y entre muestra y poblacion son conceptos de estadistica avanzada que todo ciudadano informado deberia conocer.