EL MODELO DE REGRESIÓN LINEAL CLÁSICO EN R: UN ANÁLISIS TEÓRICO Y APLICADO A LA BIOESTADÍSTICA Y LA ECONOMÍA POLÍTICA

ISADORE NABI

CONTENIDO GENERAL

A. BIOESTADÍSTICA

A.1. Caso de aplicación

Se realizó un estudio para analizar la velocidad de nado de las personas mayores de 18 años que son miembros regulares de un equipo de natación, y se tomaron en cuenta algunas variables que pueden estar relacionadas con esta velocidad. Se hizo una prueba a los participantes y se tomó el tiempo que duraban en nadar 50m. Entonces como medida de la velocidad de nado se tiene el tiempo (en segundos) el cual se puede transformar a la velocidad dividiendo la distancia entre el tiempo. Esta variable se llama veloc. Como variables predictoras se tienen las siguientes:

  • edad: la edad en años cumplidos.
  • sexo: el sexo codificado como 0 (mujeres) y 1 (hombres).
  • imc: el índice de masa corporal se calcula dividiendo el peso en kilogramos entre la altura al cuadrado (en metros), lo cual da una medida en $kg/m^2$.
  • pierna: la longitud promedio de ambas piernas (en centímetros).
  • brazo: la longitud promedio de ambos brazos (en centímetros).

A.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo con la sintaxis xyplot de la librería “lattice”.
  • Análisis descriptivo con la sintaxis scatterplot de la librería “car”.
  • Correlación lineal de Pearson.
  • Correlograma.
  • Estimación del valor esperado de la variable de respuesta.
  • Coeficientes de regresión estandarizados internamente y externamente.
  • Construccción manual y automatizada del modelo de regresión.
  • Construcción y descomposición manual de la suma de cuadrados.
  • Construcción manual y automatizada de intervalos de confianza t de Student.
  • Construcción manual y automatizada de los intervalos de predicción t de Student.
  • Construcción automatizada de los intervalos de tolerancia bayesianos normalmente distribuidos.
  • Ajuste de distribución de probabilidad.
  • Gráfico Q-Q.
  • Gráfico de probabilidad acumulada.
  • Gráfico P-P.
  • Pruebas de normalidad.
  • Simulación de estimación pseudo-aleatoria mediante una sintaxis de tipo bucle.
  • Efectos marginales.
  • Construcción manual de la prueba F.
  • Prueba de hipótesis de significancia global y local de los coeficientes de regresión.

b. ECONOMÍA POLÍTICA

B.1. cASO DE APLICACIÓN

Estudiar estadísticamente, como parte de un ejercicio pedagógico, los determinantes fundamentales lineales de la tasa media de ganancia para el caso de Estados Unidos en el período 1964-2008 mediante un análisis de regresión lineal.

B.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo de tendencias con las sintaxis plot_ly y add_trace.
  • Análisis descriptivo de las influencias o ‘leverages’.
  • Construcción automatizada del modelo de regresión.
  • Verificación del modelo de mejor ajuste vía eliminación hacia atrás mediante el Criterio Bayesiano de Información (BIC).
  • Análisis de la capacidad predictiva del modelo.
  • Ajuste de distribución.
  • Contrastes de normalidad.
  • Distancia de Cook.
  • Pruebas de multicolinealidad.
  • Pruebas de autocorrelación.
  • Pruebas de heterocedasticidad.
  • Errores Estándar Robustos en presencia de Heterocedasticidad y Autocorrelación (Errores Estándar HAC).
  • Pruebas de especificación del modelo.
  • Construcción automatizada de intervalos de confianza t de Student.

UNA APROXIMACIÓN TEÓRICA A LA DETERMINACIÓN DE LA IGUALDAD DE VARIANZAS DE DOS POBLACIONES

ISADORE NABI

Si las medias r-ésimas (los r-ésimos estadísticos de prueba) son únicas y existe convergencia en distribución entre las muestras en comparación distribución, estas tendrán también las mismas medias r-ésimas. Para garantizar la unicidad de los momentos debe garantizarse que la muestra y la población sean finitas o, a lo sumo, infinitas numerables (que sea posible poderla poner en correspondencia uno-a-uno con los números naturales); mientras que para garantizar que converjan en distribución debe garantizarse (aunque no es el único camino, más sí el óptimo para estos fines) antes la convergencia en media r-ésima, que para el caso de los espacios euclidianos y sus generalizaciones naturales (los espacios de Hilbert) debe ser convergencia en media cuadrática (porque la norma de tales espacios es de carácter cuadrático y sirve para estimar distancias bajo una lógica también cuadrática). Adicionalmente, en términos matemáticos, que converjan en media cuadrática garantiza que converjan en varianza. Que converjan en media cuadrática se verifica, en el contexto de los espacios ya mencionados, cuando se certifica a través de una prueba de hipótesis rigurosa que las medias de las dos poblaciones no difieren en términos estadísticamente significativos. Si el conjunto de condiciones anteriormente expuesto se cumple, entonces que dos muestras tengan la misma distribución y la misma media implica que su varianza será igual, lo que formalmente hablando implica que sus varianzas tenderán a ser iguales a medida se aproximen al tamaño de la población de la cual son parte. Debido a que una distribución no es caracterizada unívocamente por sus momentos sino por su función característica (si todos sus momentos son finitos), la cual es la solución a la ecuación integral generada tras la aplicación de la transformación de Fourier a la distribución de probabilidad en cuestión, la unicidad de los momentos implica formalmente hablando, además de la restricción antes impuesta sobre el tamaño de la muestra y la población, que las distribuciones de probabilidad tengan la misma función característica. Los parámetros de transformación de Fourier son, por definición, los mismos para todos los casos (a=1, b=1). El hecho de que las poblaciones sean o no sean homogéneas no es explícitamente relevante en términos teóricos puesto que la matemática pura no establece teoremas contemplando aspectos esenciales de los fenómenos que modela de manera abstracta-formal (garantiza que la heterogeneidad no sea un problema -en el terreno asintótico- al establecer los pre-requisitos antes mencionados, como se verá en el contexto aplicado). En términos aplicados es, sin lugar a dudas, completamente relevante porque puede tener implicaciones en que la diferencia en variabilidad de las muestras sea estadísticamente significativa; sin embargo, lo que se desprende en términos prácticos de lo expuesto teóricamente antes es que si dos muestras tienen la misma forma geométrica general (la misma distribución, que implica que los conjuntos de datos siguen el mismo patrón geométrico), más allá de variaciones de escala (producto de variaciones no significativas en los parámetros, es decir, variaciones que no cambian el tipo específico de distribución de la que se trate) y además existe convergencia en media (que es una forma rigurosa de expresar que, aproximadamente hablando, tendrán la misma media), también existirá convergencia en varianza, es decir, que las varianzas, diferirán a lo sumo, en una constante arbitraria C*, que se expresa teóricamente como el residuo de la solución a la ecuación integral antes mencionada. Por lo anterior, no es necesario realizar una prueba de potencia para la igualdad de varianzas establecida con prueba F, simplemente basta con verificar que las poblaciones sean las mismas, tengan el mismo tamaño de muestra y tengan la misma media para saber que tendrán la misma varianza o segundo momento.