PREDICTORES CUALITATIVOS E INTERACCIONES EN R: APLICACIONES PARA EL MERCADO DE SEGUROS y LA RESISTENCIA DE MATERIALES

isadore nabi

A. MERCADO DE SEGUROS

CASO DE APLICACIÓN

Sea un determinado mercado de seguros dentro del cual se aplican con cierta periodicidad innovaciones financieras para maximizar la tasa de ganancia de las firmas o empresas que innovan y en el que ocurre un determinado efecto «bola de nieve» para que la innovación sea adoptada por otras firmas. Se desea determinar la relación existente de la velocidad a la cual una innovación financiera es adoptada por una firma (la respuesta Y) con el tamaño de la empresa aseguradora (medida por el monto total de activos de la misma) y con el tipo financiero de la empresa aseguradora (si es accionaria o mutual).

B. RESISTENCIA DE MATERIALES

Se podría tener interés en vincular un determinado tipo de prueba de resistencia («trat») realizada a distintos tipos de tela de algodón de algún peso («peso») con la finalidad de determinar su resistencia «resist». Así, puede construirse un modelo de regresión lineal simple que explique la resistencia «resist» en función del tratamiento aplicado «trat» y, posteriormente, crear un resumen de las variables involucradas en el modelo basado en los niveles del factor «trat» que se creó; en este caso, el resumen consiste en que obtenga la media «mean» de cada uno de los niveles del factor creado.

C. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Insertar imágenes en R Markdown
  • Ajuste a recta de regresión
  • Gráfica de recta de regresión
  • Análisis descriptivo: residuos vs leverages
  • Análisis descriptivo con la sintaxis plot
  • Cambios en el nivel de referencia
  • Efectos principales y efectos de interacción
  • Construcción manual de funciones indicatriz para conjuntos simples

EL MODELO DE REGRESIÓN LINEAL CLÁSICO EN R: UN ANÁLISIS TEÓRICO Y APLICADO A LA BIOESTADÍSTICA Y LA ECONOMÍA POLÍTICA

ISADORE NABI

CONTENIDO GENERAL

A. BIOESTADÍSTICA

A.1. Caso de aplicación

Se realizó un estudio para analizar la velocidad de nado de las personas mayores de 18 años que son miembros regulares de un equipo de natación, y se tomaron en cuenta algunas variables que pueden estar relacionadas con esta velocidad. Se hizo una prueba a los participantes y se tomó el tiempo que duraban en nadar 50m. Entonces como medida de la velocidad de nado se tiene el tiempo (en segundos) el cual se puede transformar a la velocidad dividiendo la distancia entre el tiempo. Esta variable se llama veloc. Como variables predictoras se tienen las siguientes:

  • edad: la edad en años cumplidos.
  • sexo: el sexo codificado como 0 (mujeres) y 1 (hombres).
  • imc: el índice de masa corporal se calcula dividiendo el peso en kilogramos entre la altura al cuadrado (en metros), lo cual da una medida en $kg/m^2$.
  • pierna: la longitud promedio de ambas piernas (en centímetros).
  • brazo: la longitud promedio de ambos brazos (en centímetros).

A.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo con la sintaxis xyplot de la librería «lattice».
  • Análisis descriptivo con la sintaxis scatterplot de la librería «car».
  • Correlación lineal de Pearson.
  • Correlograma.
  • Estimación del valor esperado de la variable de respuesta.
  • Coeficientes de regresión estandarizados internamente y externamente.
  • Construccción manual y automatizada del modelo de regresión.
  • Construcción y descomposición manual de la suma de cuadrados.
  • Construcción manual y automatizada de intervalos de confianza t de Student.
  • Construcción manual y automatizada de los intervalos de predicción t de Student.
  • Construcción automatizada de los intervalos de tolerancia bayesianos normalmente distribuidos.
  • Ajuste de distribución de probabilidad.
  • Gráfico Q-Q.
  • Gráfico de probabilidad acumulada.
  • Gráfico P-P.
  • Pruebas de normalidad.
  • Simulación de estimación pseudo-aleatoria mediante una sintaxis de tipo bucle.
  • Efectos marginales.
  • Construcción manual de la prueba F.
  • Prueba de hipótesis de significancia global y local de los coeficientes de regresión.

b. ECONOMÍA POLÍTICA

B.1. cASO DE APLICACIÓN

Estudiar estadísticamente, como parte de un ejercicio pedagógico, los determinantes fundamentales lineales de la tasa media de ganancia para el caso de Estados Unidos en el período 1964-2008 mediante un análisis de regresión lineal.

B.2. MÉTODOS Y TÉCNICAS ESTADÍSTICAS ESTUDIADAS Y APLICADAS

  • Análisis descriptivo de tendencias con las sintaxis plot_ly y add_trace.
  • Análisis descriptivo de las influencias o ‘leverages’.
  • Construcción automatizada del modelo de regresión.
  • Verificación del modelo de mejor ajuste vía eliminación hacia atrás mediante el Criterio Bayesiano de Información (BIC).
  • Análisis de la capacidad predictiva del modelo.
  • Ajuste de distribución.
  • Contrastes de normalidad.
  • Distancia de Cook.
  • Pruebas de multicolinealidad.
  • Pruebas de autocorrelación.
  • Pruebas de heterocedasticidad.
  • Errores Estándar Robustos en presencia de Heterocedasticidad y Autocorrelación (Errores Estándar HAC).
  • Pruebas de especificación del modelo.
  • Construcción automatizada de intervalos de confianza t de Student.

ASPECTOS TEÓRICOS GENERALES SOBRE LA MATRIZ DE DISEÑO ESTRUCTURAL

ISADORE NABI

Como se señala en (Eppinger & Browning, 2012, págs. 2-4), la matriz de diseño estructural (DSM de ahora en adelante, por sus siglas en inglés) es una herramienta de modelado de redes que se utiliza para representar los elementos que componen un sistema y sus interacciones, destacando así la arquitectura del sistema (o estructura diseñada). DSM se adapta particularmente bien a aplicaciones en el desarrollo de sistemas de ingeniería complejos y, hasta la fecha, se ha utilizado principalmente en el área de gestión de ingeniería. Sin embargo, en el horizonte hay una gama mucho más amplia de aplicaciones de DSM que abordan problemas complejos en la gestión de la atención médica, los sistemas financieros, las políticas públicas, las ciencias naturales y los sistemas sociales. El DSM se representa como una matriz cuadrada N x N, que mapea las interacciones entre el conjunto de N elementos del sistema. DSM, una herramienta muy flexible, se ha utilizado para modelar muchos tipos de sistemas. Dependiendo del tipo de sistema que se modele, DSM puede representar varios tipos de arquitecturas. Por ejemplo, para modelar la arquitectura de un producto, los elementos de DSM serían los componentes del producto y las interacciones serían las interfaces entre los componentes (figura 1.1.a).

Fuente: (Eppinger & Browning, 2012, pág. 1).

Para modelar la arquitectura de una organización, los elementos de DSM serían las personas o equipos de la organización, y las interacciones podrían ser comunicaciones entre las personas (figura l.1.b). Para modelar una arquitectura de proceso, los elementos del DSM serían las actividades en el proceso, y las interacciones serían los flujos de información y/o materiales entre ellos (figura l.l.c). Los modelos DSM de diferentes tipos de arquitecturas pueden incluso combinarse para representar cómo se relacionan los diferentes dominios del sistema dentro de un sistema más grande (figura l.l.d). Por tanto, el DSM es una herramienta genérica para modelar cualquier tipo de arquitectura de sistema. En comparación con otros métodos de modelado de redes, el principal beneficio de DSM es la naturaleza gráfica del formato de visualización de la matriz. La matriz proporciona una representación muy compacta, fácilmente escalable y legible de forma intuitiva de la arquitectura de un sistema. La figura l.3.a muestra un modelo DSM simple de un sistema con ocho elementos, junto con su representación gráfica dirigida equivalente (dígrafo) en la figura 1.3.b.

Fuente: (Eppinger & Browning, 2012, pág. 4).

En comparación con otros métodos de modelado de redes, el principal beneficio de DSM es la naturaleza gráfica del formato de visualización de la matriz. La matriz proporciona una representación muy compacta, fácilmente escalable y legible de forma intuitiva de la arquitectura de un sistema. La figura l.3.a muestra un modelo DSM simple de un sistema con ocho elementos, junto con su representación equivalente como grafo dirigido (dígrafo) en la figura 1.3.b. En los estudios iniciales de DSM, a muchos les resulta fácil pensar que las celdas a lo largo de la diagonal de la matriz representan los elementos del sistema, análogos a los nodos en el modelo de dígrafo; sin embargo, es necesario mencionar que, para mantener el diagrama de matriz compacto, los nombres completos de los elementos a menudo se enumeran a la izquierda de las filas (y a veces también encima de las columnas) en lugar de en las celdas diagonales. También es fácil pensar que cada celda sobre la diagonal principal de la matriz puede tener entradas que ingresan desde sus lados izquierdo y derecho y salidas que salen desde arriba y abajo. Las fuentes y destinos de estas interacciones de entrada y salida se identifican mediante marcas en las celdas fuera de la diagonal (en la figura anterior expresadas con una letra X) análogas a los arcos direccionales en el modelo de dígrafo. Examinar cualquier fila de la matriz revela todas las entradas del elemento en esa fila (que son salidas de otros elementos).

Si se observa hacia abajo, cualquier columna de la matriz muestra todas las salidas del elemento en esa columna (que se convierten en entradas para otros elementos). En el ejemplo simple de DSM que se muestra en la figura 1.3.a, los ocho elementos del sistema están etiquetados de la A a la H, y hemos etiquetado tanto las filas como las columnas de la A a la H en consecuencia. Al leer la fila D, por ejemplo, vemos que el elemento D tiene entradas de los elementos A, B y F, representados por las marcas X en la fila D, columnas A, B y F. Al leer la columna F, vemos ese elemento F tiene salidas que van a los elementos B y D. Por lo tanto, la marca en la celda fuera de la diagonal [D, F] representa una interacción que es tanto una entrada como una salida dependiendo de si se toma la perspectiva de su proveedor (columna F) o su receptor (fila D). Es importante notar que muchos recursos de DSM usan la convención opuesta, la transposición de la matriz, con las entradas de un elemento mostradas en su columna y sus salidas mostradas en su fila. Las dos convenciones transmiten la misma información, y ambas se utilizan ampliamente debido a las diversas raíces de las herramientas basadas en matrices para los sistemas de modelado.

En este sentido, como se verifica en (IBM, 2021), en diversos escenarios aplicados puede existir más de una función discriminante[1], como se muestra a continuación.

Fuente: (IBM, 2021).

En general, como se verifica en (Zhao & Maclean, 2000, pág. 841), el análisis discriminante canónico (CDA, por nombre en inglés) es una técnica multivariante que se puede utilizar para determinar las relaciones entre una variable categórica y un grupo de variables independientes. Uno de los propósitos principales de CDA es separar clases (poblaciones) en un espacio discriminante de menor dimensión. En este contexto es que cuando existe más de una función discriminante (cada una de estas puede verse como un modelo de regresión lineal), un asterisco (*) como en este caso (para el caso del programa SaaS) u otro símbolo denotará la mayor correlación absoluta de cada variable con una de las funciones canónicas. Dentro de cada función, estas variables marcadas se ordenan por el tamaño de la correlación. Para el caso de la tabla presentada en la figura anterior, su lectura debe realizarse de la siguiente manera:

  1. “Nivel educativo” está más fuertemente correlacionado con la primera función y es la única variable más fuertemente correlacionada con esta función.
  2. Años con empresa actual, “Edad” en años, “Ingresos del hogar” en miles, “Años” en la dirección actual, “Retirado” y “Sexo” están más fuertemente correlacionados con la segunda función, aunque “Sexo” y “Jubilación” están más débilmente correlacionados que los otros. Las demás variables marcan esta función como función de «estabilidad».
  3. “Número de personas en el hogar” y “Estado civil” están más fuertemente correlacionados con la tercera función discriminante, pero esta es una función sin utilidad, así que estos predictores son prácticamente inútiles.

REFERENCIAS

de la Fuente Fernández, S. (s.f.). Análisis Discriminante. Obtenido de Universidad Autónoma de Madrid: https://www.estadistica.net/Master-Econometria/Analisis_Discriminante.pdf

Eppinger, S. D., & Browning, T. R. (2012). Design Structure Matrix Methods and Applications. Cambridge, Massachusetts: MIT Press.

IBM. (2021). Análisis discriminante. Obtenido de SPSS Statistics: https://www.ibm.com/docs/es/spss-statistics/version-missing?topic=features-discriminant-analysis

IBM. (2021). Matriz de estructura. Obtenido de SaaS: https://www.ibm.com/docs/es/spss-modeler/SaaS?topic=customers-structure-matrix

Wikipedia. (23 de Junio de 2021). Linear classifier. Obtenido de Statistical classification: https://en.wikipedia.org/wiki/Linear_classifier

Zhao, G., & Maclean, A. L. (2000). A Comparison of Canonical Discriminant Analysis and Principal Component Analysis for Spectral Transformation. Photogrammetric Engineering & Remote Sensing, 841-847. Obtenido de https://www.asprs.org/wp-content/uploads/pers/2000journal/july/2000_jul_841-847.pdf

[1] Como se verifica en (de la Fuente Fernández, pág. 1), un discriminante es cada una de las variables independientes con las que se cuenta. Además, como se verifica en (IBM, 2021), una función discriminante es aquella que, mediante las diferentes combinaciones lineales de las variables predictoras, busca realizar la mejor discriminación posible entre los grupos. No debe olvidarse que, como se señala en (Wikipedia, 2021), En el campo del aprendizaje automático, el objetivo de la clasificación estadística es utilizar las características de un objeto para identificar a qué clase (o grupo) pertenece.