UNA APROXIMACIÓN TEÓRICA A LA DETERMINACIÓN DE LA IGUALDAD DE VARIANZAS DE DOS POBLACIONES

ISADORE NABI

Si las medias r-ésimas (los r-ésimos estadísticos de prueba) son únicas y existe convergencia en distribución entre las muestras en comparación distribución, estas tendrán también las mismas medias r-ésimas. Para garantizar la unicidad de los momentos debe garantizarse que la muestra y la población sean finitas o, a lo sumo, infinitas numerables (que sea posible poderla poner en correspondencia uno-a-uno con los números naturales); mientras que para garantizar que converjan en distribución debe garantizarse (aunque no es el único camino, más sí el óptimo para estos fines) antes la convergencia en media r-ésima, que para el caso de los espacios euclidianos y sus generalizaciones naturales (los espacios de Hilbert) debe ser convergencia en media cuadrática (porque la norma de tales espacios es de carácter cuadrático y sirve para estimar distancias bajo una lógica también cuadrática). Adicionalmente, en términos matemáticos, que converjan en media cuadrática garantiza que converjan en varianza. Que converjan en media cuadrática se verifica, en el contexto de los espacios ya mencionados, cuando se certifica a través de una prueba de hipótesis rigurosa que las medias de las dos poblaciones no difieren en términos estadísticamente significativos. Si el conjunto de condiciones anteriormente expuesto se cumple, entonces que dos muestras tengan la misma distribución y la misma media implica que su varianza será igual, lo que formalmente hablando implica que sus varianzas tenderán a ser iguales a medida se aproximen al tamaño de la población de la cual son parte. Debido a que una distribución no es caracterizada unívocamente por sus momentos sino por su función característica (si todos sus momentos son finitos), la cual es la solución a la ecuación integral generada tras la aplicación de la transformación de Fourier a la distribución de probabilidad en cuestión, la unicidad de los momentos implica formalmente hablando, además de la restricción antes impuesta sobre el tamaño de la muestra y la población, que las distribuciones de probabilidad tengan la misma función característica. Los parámetros de transformación de Fourier son, por definición, los mismos para todos los casos (a=1, b=1). El hecho de que las poblaciones sean o no sean homogéneas no es explícitamente relevante en términos teóricos puesto que la matemática pura no establece teoremas contemplando aspectos esenciales de los fenómenos que modela de manera abstracta-formal (garantiza que la heterogeneidad no sea un problema -en el terreno asintótico- al establecer los pre-requisitos antes mencionados, como se verá en el contexto aplicado). En términos aplicados es, sin lugar a dudas, completamente relevante porque puede tener implicaciones en que la diferencia en variabilidad de las muestras sea estadísticamente significativa; sin embargo, lo que se desprende en términos prácticos de lo expuesto teóricamente antes es que si dos muestras tienen la misma forma geométrica general (la misma distribución, que implica que los conjuntos de datos siguen el mismo patrón geométrico), más allá de variaciones de escala (producto de variaciones no significativas en los parámetros, es decir, variaciones que no cambian el tipo específico de distribución de la que se trate) y además existe convergencia en media (que es una forma rigurosa de expresar que, aproximadamente hablando, tendrán la misma media), también existirá convergencia en varianza, es decir, que las varianzas, diferirán a lo sumo, en una constante arbitraria C*, que se expresa teóricamente como el residuo de la solución a la ecuación integral antes mencionada. Por lo anterior, no es necesario realizar una prueba de potencia para la igualdad de varianzas establecida con prueba F, simplemente basta con verificar que las poblaciones sean las mismas, tengan el mismo tamaño de muestra y tengan la misma media para saber que tendrán la misma varianza o segundo momento.

SUPUESTOS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL Y DE LOS MODELOS LINEALES GENERALIZADOS

isadore nabi

REFERENCIAS

Banerjee, A. (29 de Octubre de 2019). Intuition behind model fitting: Overfitting v/s Underfitting. Obtenido de Towards Data Science: https://towardsdatascience.com/intuition-behind-model-fitting-overfitting-v-s-underfitting-d308c21655c7

Bhuptani, R. (13 de Julio de 2020). Quora. Obtenido de What is the difference between linear regression and least squares?: https://www.quora.com/What-is-the-difference-between-linear-regression-and-least-squares

Cross Validated. (23 de Marzo de 2018). Will log transformation always mitigate heteroskedasticity? Obtenido de StackExchange: https://stats.stackexchange.com/questions/336315/will-log-transformation-always-mitigate-heteroskedasticity

Greene, W. (2012). Econometric Analysis (Séptima ed.). Harlow, Essex, England: Pearson Education Limited.

Guanga, A. (11 de Octubre de 2018). Machine Learning: Bias VS. Variance. Obtenido de Becoming Human: Artificial Intelligence Magazine: https://becominghuman.ai/machine-learning-bias-vs-variance-641f924e6c57

Gujarati, D., & Porter, D. (8 de Julio de 2010). Econometría (Quinta ed.). México, D.F.: McGrawHill Educación. Obtenido de Homocedasticidad.

McCullagh, P., & Nelder, J. A. (1989). Generalized Linear Models (Segunda ed.). London: Chapman and Hall.

MIT Computer Science & Artificial Intelligence Lab. (6 de Mayo de 2021). Solving over- and under-determined sets of equations. Obtenido de Articles: http://people.csail.mit.edu/bkph/articles/Pseudo_Inverse.pdf

Nabi, I. (27 de Agosto de 2021). MODELOS LINEALES GENERALIZADOS. Obtenido de El Blog de Isadore Nabi: https://marxianstatistics.files.wordpress.com/2021/08/modelos-lineales-generalizados-isadore-nabi.pdf

Penn State University, Eberly College of Science. (2018). 10.4 – Multicollinearity. Obtenido de Lesson 10: Regression Pitfalls: https://online.stat.psu.edu/stat462/node/177/

Penn State University, Eberly College of Science. (24 de Mayo de 2021). Introduction to Generalized Linear Models. Obtenido de Analysis of Discrete Data: https://online.stat.psu.edu/stat504/lesson/6/6.1

Perezgonzalez, J. D. (3 de Marzo de 2015). Fisher, Neyman-Pearson or NHST? A tutorial for teaching data testing. frontiers in PSYCHOLOGY, VI(223), 1-11.

ResearchGate. (10 de Noviembre de 2014). How it can be possible to fit the four-parameter Fedlund model by only 3 PSD points? Obtenido de https://www.researchgate.net/post/How_it_can_be_possible_to_fit_the_four-parameter_Fedlund_model_by_only_3_PSD_points

ResearchGate. (28 de Septiembre de 2019). s there a rule for how many parameters I can fit to a model, depending on the number of data points I use for the fitting? Obtenido de https://www.researchgate.net/post/Is-there-a-rule-for-how-many-parameters-I-can-fit-to-a-model-depending-on-the-number-of-data-points-I-use-for-the-fitting

Salmerón Gómez, R., Blanco Izquierdo, V., & García García, C. (2016). Micronumerosidad aproximada y regresión lineal múltiple. Anales de ASEPUMA(24), 1-17. Obtenido de https://dialnet.unirioja.es/descarga/articulo/6004585.pdf

Simon Fraser University. (30 de Septiembre de 2011). THE CLASSICAL MODEL. Obtenido de http://www.sfu.ca/~dsignori/buec333/lecture%2010.pdf

StackExchange Cross Validated. (2 de Febrero de 2017). “Least Squares” and “Linear Regression”, are they synonyms? Obtenido de What is the difference between least squares and linear regression? Is it the same thing?: https://stats.stackexchange.com/questions/259525/least-squares-and-linear-regression-are-they-synonyms

Wikipedia. (18 de Marzo de 2021). Overdetermined system. Obtenido de Partial Differential Equations: https://en.wikipedia.org/wiki/Overdetermined_system

Zhao, J. (9 de Noviembre de 2017). More features than data points in linear regression? Obtenido de Medium: https://medium.com/@jennifer.zzz/more-features-than-data-points-in-linear-regression-5bcabba6883e

DISQUISICIONES ELEMENTALES SOBRE LOS TEOREMAS FUNDAMENTALES DEL CÁLCULO EN UNA VARIABLE (ENSAYO SOBRE FILOSOFÍA DE LAS MATEMÁTICAS, 2015)

ISADORE NABI