EL MODELO DE REGRESIÓN LINEAL CLÁSICO EN R: UN ANÁLISIS TEÓRICO Y APLICADO A LA BIOESTADÍSTICA Y LA ECONOMÍA POLÍTICA

ISADORE NABI

CONTENIDO GENERAL

A. BIOESTADÍSTICA

A.1. Caso de aplicación

Se realizó un estudio para analizar la velocidad de nado de las personas mayores de 18 años que son miembros regulares de un equipo de natación, y se tomaron en cuenta algunas variables que pueden estar relacionadas con esta velocidad. Se hizo una prueba a los participantes y se tomó el tiempo que duraban en nadar 50m. Entonces como medida de la velocidad de nado se tiene el tiempo (en segundos) el cual se puede transformar a la velocidad dividiendo la distancia entre el tiempo. Esta variable se llama veloc. Como variables predictoras se tienen las siguientes:

  • edad: la edad en años cumplidos.
  • sexo: el sexo codificado como 0 (mujeres) y 1 (hombres).
  • imc: el índice de masa corporal se calcula dividiendo el peso en kilogramos entre la altura al cuadrado (en metros), lo cual da una medida en $kg/m^2$.
  • pierna: la longitud promedio de ambas piernas (en centímetros).
  • brazo: la longitud promedio de ambos brazos (en centímetros).

A.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo con la sintaxis xyplot de la librería «lattice».
  • Análisis descriptivo con la sintaxis scatterplot de la librería «car».
  • Correlación lineal de Pearson.
  • Correlograma.
  • Estimación del valor esperado de la variable de respuesta.
  • Coeficientes de regresión estandarizados internamente y externamente.
  • Construccción manual y automatizada del modelo de regresión.
  • Construcción y descomposición manual de la suma de cuadrados.
  • Construcción manual y automatizada de intervalos de confianza t de Student.
  • Construcción manual y automatizada de los intervalos de predicción t de Student.
  • Construcción automatizada de los intervalos de tolerancia bayesianos normalmente distribuidos.
  • Ajuste de distribución de probabilidad.
  • Gráfico Q-Q.
  • Gráfico de probabilidad acumulada.
  • Gráfico P-P.
  • Pruebas de normalidad.
  • Simulación de estimación pseudo-aleatoria mediante una sintaxis de tipo bucle.
  • Efectos marginales.
  • Construcción manual de la prueba F.
  • Prueba de hipótesis de significancia global y local de los coeficientes de regresión.

b. ECONOMÍA POLÍTICA

B.1. cASO DE APLICACIÓN

Estudiar estadísticamente, como parte de un ejercicio pedagógico, los determinantes fundamentales lineales de la tasa media de ganancia para el caso de Estados Unidos en el período 1964-2008 mediante un análisis de regresión lineal.

B.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo de tendencias con las sintaxis plot_ly y add_trace.
  • Análisis descriptivo de las influencias o ‘leverages’.
  • Construcción automatizada del modelo de regresión.
  • Verificación del modelo de mejor ajuste vía eliminación hacia atrás mediante el Criterio Bayesiano de Información (BIC).
  • Análisis de la capacidad predictiva del modelo.
  • Ajuste de distribución.
  • Contrastes de normalidad.
  • Distancia de Cook.
  • Pruebas de multicolinealidad.
  • Pruebas de autocorrelación.
  • Pruebas de heterocedasticidad.
  • Errores Estándar Robustos en presencia de Heterocedasticidad y Autocorrelación (Errores Estándar HAC).
  • Pruebas de especificación del modelo.
  • Construcción automatizada de intervalos de confianza t de Student.

¿QUÉ ES UNA CORRELACIÓN ESPURIA?: EL CASO DE LOS DELITOS Y EL COLOR DE PIEL

Isadore nabi

Como señala (Gujarati & Porter, 2010, pág. 19) “A pesar de que el análisis de regresión tiene que ver con la dependencia de una variable respecto de otras variables, esto no implica causalidad necesariamente. En palabras de Kendall y Stuart: “Una relación estadística, por más fuerte que y sugerente que sea, nunca podrá establecer una conexión causal nuestras ideas de causalidad deben provenir de estadísticas externas y, en último término, de una u otra teoría.” (…) M. G. Kendall y A. Stuart, The Advanced Theory of Statistics, Charles Griffin Publishers, Nueva York, 1961, vol. 2, cap. 26, p. 279.”

Profundizando en ello, (Ritchey, 2002, pág. 522) señala que “La existencia de una correlación tan solo denota que las puntuaciones de las dos variables varían de manera conjunta y sistemática en un patrón predecible. Este descubrimiento por sí mismo no establece causalidad entre las variables. Muchas correlaciones son espurias. Una correlación espuria es aquella que es conceptualmente falsa, sin sentido o teóricamente sin sentido, lo cual se ilustra por la correlación entre (…) la tasa de delito en los barrios de la ciudad y la composición racial de una comunidad. Existe una correlación positiva entre el porcentaje de la población minoritaria (por ejemplo, afroamericanos) que viven en barrios y las tasas de crimen. Es decir, para una muestra de comunidades, aquellas con un alto porcentaje de afroamericanos tienden a presentar altas tasas de delito. No obstante, ello sugiere que los afroamericanos son más propensos al comportamiento delictivo, y, de hecho, los racistas a menudo citan tal estadística. Esta correlación, sin embargo, resulta espuria. Las tasas de delito son altas en los barrios pobres sin tener en cuenta su composición racial, y una parte desproporcionada de los barrios minoritarios son pobres. Es más, la relación entre pobreza y composición racial se debe al racismo, no a la raza biológica Es decir, ser pobre no tiene nada que ver con la genética. Es la herencia racista de Estados Unidos la que contribuye al hecho de que una parte desproporcionada de los afroamericanos vivan en pobreza, lo cual, a su vez, es un buen predictor de las tasas de delito.”

A la explicación anterior hay que añadir que no es el racismo en sí mismo el que genera un nexo entre pobreza y composición racial (al menos no entendido como actitud ideológica frente a las personas afro-descendientes), sino que es la exclusión económica y financiera a la que en general se enfrentan los miembros de la sociedad desprovistos de medios de producción, la cual a su vez se agudiza particularmente con los afro-descendientes dadas las condiciones históricas de esclavitud formal, informal y de marginación social en general a la que los distintos imperios que han existido a lo largo de los diversos modos de producción social han sometido a los pueblos africanos desde los tiempos de la antigua Grecia hasta nuestros días. Merece la pena mencionar, en el contexto del movimiento Black Lives Matters, que existen dificultades no triviales para delimitar a qué nos referimos con “afro-descendientes”, tomando en cuenta que en 1987 los investigadores Rebecca Cann, Stoneking y Wilson demostraron que el Homo sapiens se originó en África calculamos entre 140,000 y 290,000 años atrás y migró de allí al resto del mundo, sustituyendo a los humanos arcaico; véase (Cann, Stoneking, & Wilson, 1987). Sin embargo, para fines de este análisis tómese de punto de partida la época en que las comunidades primitivas ya estaban bien definidas.