top of page
I took this road-trip photo of a car driving, in Mexico._edited.jpg

Técnicas de aprendizaje no supervisado aplicadas al Índice de Rezago Social en México, 2020

Autores: Alan Jair Carreón Trujillo, Pablo Melchor Lozada, Rafael Reyes Fernández

Agradecimientos y dedicatorias

Inicialmente, se agradece el apoyo de la Mtra. Lorena López Lozada, académica de la Universidad Veracruzana. Quien en todo momento brindó su motivación y conocimiento para el oportuno desarrollo de este proyecto. Se destaca también el agradecimiento al CONEVAL y el portal de datos abiertos del Gobierno de México. Por apegarse a los principios de las normativas en materia de transparencia pública. Y de esta manera proporcionar las herramientas que fueron indispensables para desarrollar cada uno de los métodos de investigación que se presentan en este trabajo.
Finalmente, se agradece el esfuerzo de los integrantes del equipo, con el fin de culminar satisfactoriamente este proyecto. 

 

Agradecimientos

Resumen

La Ley General de Desarrollo Social establece que la medición de pobreza debe considerar el carácter multidimensional de la pobreza, el CONEVAL construyó el Índice de Rezago Social. Este índice es una medida ponderada que se resumen en cuatro indicadores que reflejan las carencias de la sociedad, estos indicadores son: educación, salud, servicios básicos de calidad y espacios en la vivienda. 
México es un país que no ha avanzado mucho en la reducción de la pobreza, poco más de la mitad de la población se encuentra en estas condiciones y la distribución de esta, geográficamente hablando, es variada, por lo que se vuelve un desafío para las políticas públicas en el mejoramiento de la calidad de vida. El objetivo general es aplicar técnicas de aprendizaje no supervisado para la búsqueda de patrones sobre los indicadores del Índice de Rezago Social en México, en el año 2020. 
Los datos utilizados corresponden a información referente al año 2020, compuesto por 32 estados de la República Mexicana, y 17 variables sobre el Rezago Social. El análisis de las variables utilizó el método de escalamiento multidimensional y el análisis clúster. La finalidad es identificar agrupamientos aplicando técnicas de análisis no supervisado, a través del software estadístico R. 
Como resultado del análisis se obtuvieron 4 grupos de estados de acuerdo a su nivel de rezago social. Entidades como Guerrero, Oaxaca y Chiapas son las que presentan mayor nivel de rezago social. Por otro lado, estados como Jalisco, Coahuila, Nuevo León y la Ciudad de México presentan menor nivel de rezago. Otras entidades como Veracruz, Hidalgo, Puebla y el Estado de México poseen niveles de rezago social similares. 

 

Palabras clave: Índice de rezago social, México, CONEVAL, análisis clúster, escalamiento multidimensional

Abstract

Since the Ley General de Rezago Social establishes that the measurement of poverty must consider the multidimensional nature of poverty, CONEVAL constructed the Índice de Rezago Social (Social Lag Index). This index is a weighted measure that is summarized in four indicators that reflect the deficiencies of society, these indicators are: education, health, basic quality services and spaces in the home.

Mexico is a country that has not made much progress in reducing poverty, just over half of the population is in these conditions and the distribution of this, geographically is varied, so it becomes a challenge for the public policies to improve the quality of life. The general objective is to apply unsupervised learning techniques to search for patterns on the indicators of the Social Lag Index in Mexico, in the year 2020.

 The data used correspond to information referring to the year 2020, composed of 32 states of the Mexican Republic, and 17 variables on Social Lag. The analysis of the variables used the multidimensional scaling method and cluster analysis. The purpose is to identify clusters applying unsupervised analysis techniques, through the statistical software R.

As a result of the analysis, 4 groups of states were obtained according to their level of social backwardness. Entities such as Guerrero, Oaxaca and Chiapas are the ones with the highest level of social backwardness. On the other hand, states such as Jalisco, Coahuila, Nuevo León and Mexico City have a lower level of lag. Other states such as Veracruz, Hidalgo, Puebla and the State of Mexico have similar levels of social backwardness.

​

Keywords: Social Lag Index, México, CONEVAL, Cluster analysis, Multidimensional scaling

Resumen

Introducción

Dado que la Ley General de Desarrollo Social establece que la medición de pobreza debe considerar el carácter multidimensional de la pobreza, el CONEVAL construyó el Índice de Rezago Social. Este índice es una medida ponderada que se resumen en cuatro indicadores que reflejan las carencias de la sociedad, estos indicadores son: educación, salud, servicios básicos y calidad y espacios en la vivienda. Una vez determinado el Índice de Rezago Social, se clasifican las unidades de observación con base en los grados de rezago social.
México es un país que no ha avanzado mucho en la reducción de la pobreza, poco más de la mitad de la población se encuentra en estas condiciones y la distribución de esta, geográficamente hablando, es variada, por lo que se vuelve un desafío para las políticas públicas en el mejoramiento de la calidad de vida. El índice de rezago social tiene el objetivo de contribuir a las herramientas que el CONEVAL pone a disposición para encontrar las zonas importantes del país en cuanto a desarrollo social se refiere, y de esta manera apoyar a la toma de decisiones para el mejoramiento de la calidad de vida de los mexicanos.

​

Introducción

Objetivos

Objetivo general

  • Aplicar técnicas de aprendizaje no supervisado para la búsqueda de patrones sobre los indicadores del Índice de Rezago Social en México, en el año 2020.

Objetivos específicos 

  • Realizar una representación bidimensional de los indicadores con los que se elabora el Índice de Rezago Social.

  • Agrupar los estados de la república mexicana con base en las características de los indicadores del Índice de Rezago Social.

  • Comparar con ayuda de un modelo de regresión las variables población e IRS.

Objetivos

Metodología

Screenshot (60).png

El estudio es de tipo observacional retrospectivo transversal. Esto debido a que los datos con los que se trabajó se obtuvieron del CONEVAL y no hubo participación de los autores en la recolección. 
Fuentes y datos
Los datos utilizados corresponden a información referente al año 2020, compuesto por 32 estados de la República Mexicana, y 17 variables sobre el Rezago Social. Once variables se ocuparon para describir las condiciones en las que se encuentran los estados de nuestro país. Siendo 3 indicadores de educación, 1 indicador de salud y 7 indicadores socioeconómicos. Fue recuperada de los datos abiertos del gobierno de México.

​

​

​

​

​

​

​

​

​

​

Análisis estadístico
El análisis de las variables utilizó el método de escalamiento multidimensional y el análisis clúster. La finalidad es identificar agrupamientos aplicando técnicas de análisis no supervisado, a través del software estadístico R. Se recurrió a estos métodos debido a que logran una representación bidimensional a través de coordenadas que son calculadas a partir de las distancias.
Primero, en el análisis clúster, se verificó si existían datos faltantes y se identificaron las escalas de las variables. Posteriormente se aplicó la medida de similitud de la distancia euclídea para identificar los grupos o clústeres homogéneos. Finalmente se obtuvo el agrupamiento de los estados con niveles de rezago social similares. 
El escalamiento multidimensional no métrico, así como el análisis clúster, busca conformar agrupaciones basadas en las distancias. Sin embargo, a diferencia de dicho análisis el escalamiento trabaja sobre variables cualitativas en escala ordinal. Para obtener la variable ordinal deseada se construyó un código en R. Este permitió obtener 5 niveles representativos para cada uno de los niveles de rezago social. Se verificó la bondad de ajuste con ayuda del valor de Stress, que fue de 0.071. El cual indicó un buen ajuste para lograr una representación más acertada.  

 

Metodología

Resultados

MDS.png

Como resultado del análisis de agrupamiento se observó que la varianza explicada por los grupos formados es del 76.9%. La primera dimensión explica 64.3% de la varianza, mientras que la segunda dimensión explica un 12.6%. Se observó que se formaron 4 grupos de estados de acuerdo con su nivel de rezago social. Entidades como Guerrero, Oaxaca y Chiapas son las que presentan mayor nivel de rezago social, por eso se agrupan a la derecha del gráfico. Por otro lado, estados como Jalisco, Coahuila, Nuevo León y la Ciudad de México presentan menor nivel de rezago. Otras entidades como Veracruz, Hidalgo, Puebla y el Estado de México poseen niveles de rezago social similares. Por este motivo aparecen en el mismo conglomerado.

​

​

​

​

​

​

​

​

​

​

​

​

Existe una similitud en cuanto a la forma de estos 2 métodos para el agrupamiento de los estados. Se destaca que existe una similitud con la figura anterior, estados como Chiapas, Oaxaca y Guerrero se agrupan en el mismo conglomerado. Mientras entidades como Veracruz, Puebla e Hidalgo tienen poca distancia en el plano. Nuevo León, la Ciudad de México y Sonora por mencionar algunos, se encuentran hasta el otro lado del gráfico. Por lo que se corrobora que son las entidades federativas con menor nivel de rezago social.

​

​

​

​

​

​

​

​

​

​

​

​

El siguiente mapa coroplético confirmó la presencia de los grupos anteriormente formados. Se evidencia que entidades como Chiapas, Oaxaca y Guerrero, tienen los niveles más altos de Grado de Rezago Social. Mientras que, estados como Aguascalientes, Nuevo León Y Ciudad de México tiene los niveles más bajos.

Agrupamiento de estados por IRS

clusteres.png

Biplot de entidades por Grado de Rezago social

Grado de rezago social por estado, 2020

2.png
Resultados

Discusión

Como se ha demostrado en la investigación del Coneval, la región que presenta mayores niveles de rezago es la conformada por los estados de Chiapas, Guerrero y Oaxaca. Estas entidades presentaron los niveles más altos en cinco de los once indicadores del IRS. Principalmente en indicadores referentes a la educación e infraestructura de las viviendas de los habitantes. Por otro lado, estados como Nuevo León, Coahuila y la CDMX presentan los niveles más bajos de rezago. Destaca la Ciudad de México por presentar los menores niveles de IRS en seis de los once indicadores. Estos resultados son muy similares a los obtenidos por las técnicas de agrupamiento de aprendizaje no supervisado. Evidenciando la eficacia de los métodos anteriormente mencionados. 
Claramente, la zona que requiere mayor atención es la del sur/sureste, debido a que presentó los niveles más altos en la mayoría de los indicadores. Por otro lado, la zona norte es la que tiene niveles más bajos de rezago. Esto evidencia que las condiciones socioeconómicas del país geográficamente hablando son muy diferentes. Lo cual representa un desafío para las políticas públicas en el mejoramiento de la calidad de vida.  

​

Discusión
Referencias

Referencias

​

Anexos

#### LA LIBRERÍA
library(vegan)
library(car)

#### LOS DATOS 
datos = read.csv("rezago.csv")
rownames(datos) = datos[,2]
datos = datos[,4:14]
for(i in 1:32){
for(j in 1:11){
datos[i,j] = datos[i,j]/56.22025*100}}
datos = round(datos)
for(i in 1:32){
for(j in 1:11){
datos[i,j] = recode(datos[i,j], 
"0:20=1; 21:40=2; 40:60=3; 60:80=4; 81:100=5")}}

datos

#### HACEMOS LA ORDENACIÓN
analizamosnmds = metaMDS(datos, k=2, trymax=100)

#La función metaMDS realiza un escalado multidimensional 
#no métrico (NMDS) e intenta encontrar una solución 
#estable utilizando varios inicios aleatorios. 
#Además, estandariza la escala en el resultado, 
#para que las configuraciones sean más fáciles de 
#interpretar, y agrega puntajes de especies a la 
#ordenación del sitio.

#### HACEMOS UN PLOT DE LA ORDENACIÓN DEL STRESS
stressplot(analizamosnmds)

#### BUSCAMOS EL VALOR DE NUESTRO STRESS
analizamosnmds

#< 0.05 muy buena representación, con 
#< 0.1 buena, 
#< 0.2 es adecuada, y 
#< 0.3 la representación es un poco pobre

#### AHORA LO REPRESENTAMOS
plot(analizamosnmds, type = "t")

#### UNA OPCIÓN MÁS PARA REPRESENTAR
ordiplot(analizamosnmds,type="n")
orditorp(analizamosnmds,display="sites",cex=2.2,air=0.01)
orditorp(analizamosnmds,display="species",col="blue",air=0.01)

 

Anexos

Anexos aquí

Anexos
bottom of page