Procesamiento con Redatam: Propuesta de indicadores sociodemográficos para la Región Amazónica a partir del análisis de datos censales y encuestas de hogar

Population and development

22 December 2023|Insights

En este artículo se presenta un resumen del procesamiento con Redatam realizado en el Estudio "Brechas de desigualdad sociodemográfica en la Región Amazónica: una propuesta de indicadores para su visibilización", que se desarrolló por el CELADE en el marco en un acuerdo de cooperación con la Organización del Tratado de Cooperación Amazónica (OTCA) y contó con el financiamiento de la Agencia Brasileña de Cooperación (ABC). Los indicadores fueron construidos a partir de las bases de microdatos de los censos de población y vivienda en formato Redatam existentes en el Banco de Datos de CEPAL al año 2022. La metodología de trabajo se basó principalmente en tres etapas: 1. La propuesta y definición de indicadores; 2. El procesamiento y mapeo de estos; y 3. el análisis de resultados.

OTCA logos

El estudio implicó diferentes etapas, con productos y actividades que se realizaron durante el año 2022: desde la propuesta de indicadores, basada en un marco conceptual y metodológico; luego el procesamiento de las fuentes de datos (censos de población y vivienda y encuestas de hogares disponibles a la fecha) para la generación de indicadores, tabulados y su mapeo; por último, el análisis de los resultados que resultó en un documento pronto a publicarse.

Etapas del estudio

Imagen 2

Aquí describiremos la metodología utilizada sobre el procesamiento de los indicadores -que incluyó la homologación de las variables en cada base censal de cada país lo cual permite no solo la comparabilidad de los datos entre bases, sino también, la programación única de cada indicador y su procesamiento directo, indistinto de la base a procesar. Se describe la metodología de programación eficiente de los indicadores y la obtención de los tabulados de manera estandarizada para todos los países en base a la herramienta Redatam y se espera que esta metodología se mantenga vigente y permita la actualización de este sistema una vez que se cuente con datos actualizados. Para el procesamiento se utilizó el programa Redatam con bases de datos en formato Redatam del Banco de Datos de CEPAL.

Análisis del alcance y limitaciones de los datos censales

Si bien la Amazonía está integrada por las regiones amazónicas de ocho países y sus datos oficiales provienen de las instituciones oficiales de cada uno de ellos; para este proyecto, se tomó como únicas fuentes de información las encuestas de hogares y los censos de población y vivienda más recientes de cada país en formato Redatam.

Alcances

Dentro de los principales alcances del uso del censo es que, al contar con una base de microdatos se puede realizar el cálculo de indicadores muy desagregados, ya que se trabaja con el universo completo del país, es decir, no es una muestra sino el 100% de la población. Esto permite realizar análisis interseccionales de las diferentes temáticas sobre las principales desagregaciones poblacionales, como sexo, etnicidad, zona residencial (urbano/rural), entre otras

No obstante, es sumamente relevante destacar que la información censal se rige por el secreto estadístico, y, por tanto, aunque efectivamente existe el dato de cada una de las personas y viviendas de un país, no es posible su identificación espacial. Es decir, cada país define una unidad geográfica mínima para la agregación de los datos que permite el análisis sin riesgo de identificación de la vivienda y/o persona. Por tanto, esta unidad geográfica mínima es el nivel geográfico más bajo en cuanto a desagregación espacial al cual se pueden realizar los análisis.

En el presente proyecto, y de acuerdo con los microdatos censales de los 8 países miembros de la región de la Amazonía, las unidades geográficas mínimas con la cual se trabajaron en cada uno de ellos son las siguientes:

Cuadro 1

También es relevante destacar que, la visión interseccional de los indicadores calculados, permitirán visibilizar las brechas sociales de quienes habitan al interior de la Amazonía, yendo más allá de lo geofísico y biológico, con miras de obtener información relevante que permita mejorar la situación actual, minimizando dichas desigualdades y a su vez, para lograr este desarrollo sostenible.

Limitaciones

Una de las limitaciones más importantes del censo está referida a la temporalidad, es decir, el periodo entre un censo y otro. Dada la situación actual de la pandemia, fueron suspendidos los censos de la ronda 2020, por lo cual los censos más actualizados son los correspondientes a la ronda 2010.

Otra limitación del censo es que no profundiza en algunos temas relevantes como condiciones laborales, previsión, salud, remuneraciones, etc. Estos temas son abordados por otras fuentes, como las encuestas de hogares. Es por lo que no todos los indicadores propuestos en este proyecto se pudieron calcular con los microdatos censales, y en esos casos, fueron calculados con las encuestas de hogares.

Indicadores desde Censos de Población y Vivienda (CPV)

Primeramente, se procedió a la programación de la variable de control que clasificara el territorio en Amazónico o No Amazónico en cada uno de los países. En tal sentido, se construye la sintaxis para la nueva variable a partir de la asignación de los siguientes códigos:

Cuadro 2

Como ejemplo, se muestra a continuación un fragmento de la sintaxis en lenguaje Redatam para la creación de las nuevas variables, entendiendo que se realizó la creación de una variable por país. El siguiente ejemplo es para la variable de Bolivia:

Imagen 2

Luego, se procedió a la definición, programación y revisión de los indicadores planteados para ser procesados desde los microdatos censales.

Construcción y homologación de variables

Una de las partes más relevante fue la de construcción y homologación de variables, y el proceso de construcción de los indicadores. La metodología utilizada para esto fue la de homogenización de variables únicas que no solo permitieran la comparabilidad de los datos, sino el procesamiento eficiente de los indicadores a construir. Se adjunta en el Anexo I la descripción detallada de la homologación utilizada para cada variable y sobre la cual se realizaron los ajustes en las bases de microdato de los países trabajados.

A partir de esto, como proceso previo a la construcción de los indicadores, se tuvo que crear, o incluso en algunos casos, replicar algunas variables en las diferentes bases censales, entendiendo que cada país precisa un tratamiento diferente para la construcción de sus variables, por lo cual se reitera la importancia de realizar, como paso inicial, una revisión previa de cada variable para realizar las modificaciones y adaptaciones que correspondan a cada país.

Variables para los indicadores y la desagregación y filtros

El proyecto manejó un gran número de indicadores en diversas temáticas, y si bien cada indicador tiene una construcción particular y siguiendo una metadata determinada, existió un grupo de variables de gran importancia ya que se usó transversalmente en la mayoría de los indicadores, llamándose variables de desagregación y/o filtro. Las mismas permitieron desagregar los datos para obtener información más detallada y lograr ampliar los análisis de las desigualdades de la región amazónica. Es relevante resaltar que éstas fueron usadas según el tema abordado y alcance posible de los datos, y de acuerdo con la metadata de cada indicador.

Programación de indicadores

Tratamiento de valores perdidos

La estrategia propuesta para el proyecto sobre el tratamiento de los valores perdidos fue eliminar del denominador de cada indicador involucrado el total de personas que no cuentan con respuesta válida. Esta estrategia se utiliza bajo la hipótesis de que su comportamiento no se encuentra correlacionado con otras variables, especialmente las de desagregación sociodemográfica. Dicho en otras palabras, se asume que la proporción de individuos sin respuesta válida en una variable que distribuye aleatoriamente en toda la población, no afectando los valores del indicador en cualquiera de las desagregaciones.

Construcción de indicadores y la programación eficiente en REDATAM

Para este proyecto se realizó la programación eficiente que permite Redatam utilizando, principalmente, el tipo de salida SIDRA en la construcción de cada indicador. Esto se refiere a la construcción de la sintaxis de los indicadores, en lenguaje Redatam, utilizando las variables homologadas construidas y revisadas previamente (mismo nombre y categorías), y además haciendo uso de parámetros que permiten la utilización de un mismo programa para todas las bases de datos.

Para la construcción de los indicadores se tomó las fichas metodológicas entregadas, y una vez verificada la ficha, se procedió a la programación de cada indicador realizando la siguiente secuencia de pasos:
1.- Revisión, construcción y verificación de variables básicas de desagregación y específicas por indicador.
2.- Programación de indicadores, según desagregación territorial (Amazonía/No Amazonía) y según desagregaciones poblaciones.
3.- Programación de indicadores a nivel de DAME amazónico, con sus respectivas desagregaciones poblacionales.
4.- Preparación de archivo input para realizar los mapas, según listado de mapas solicitados.

El beneficio de aplicar este tipo de programación con parámetros es que permite la utilización de un único programa por indicador aplicable en todas las bases de microdatos, pero, además, permite garantizar el uso correcto de las variables que ya fueron previamente verificadas en su construcción (variables homogéneas).

El comando de inserción de parámetros es doble signo de porcentaje (% condición %), el cual se agrega a la sintaxis del indicador, ya sea en la programación del mismo o en los parámetros de salida de datos, y además se pueden insertar tantas veces se requieran cambiar las condiciones particulares de los países. Los parámetros utilizados para la programación de los indicadores fueron los siguientes:

Cuadro 3

Asimismo, al utilizar el tipo de salida SIDRA, que genera archivos ASCII separados por coma .csv con los resultados de la operación matricial, se optimiza y estandariza los tabulados obtenidos. Este tipo de formato de salida viene con una serie de campos que permiten ser llenados por las variables involucradas en la operación matricial de acuerdo con un largo de valor y a una posición en la tabla de salida, entendiendo que la programación del indicador debe mantener el orden de las dimensiones (variables), es decir, las variables utilizadas para las tablas definidas como numerador y denominador deben ser consistentes en sus posiciones para todos los indicadores, así la tabla de salida será una sola y las variables mantendrán su posición en todos los indicadores.

Entendido lo anterior, a continuación, se presentan los parámetros utilizados para las tablas de salida en formato SIDRA de los indicadores construidos:

Cuadro 4

A continuación, se presentan un grupo de imágenes de programas para ejemplificar la secuencia de pasos previamente mencionada y la obtención de datos. Además, se visualiza la utilidad de esta metodología en la producción de indicadores iguales en diferentes bases de microdatos.

1. Programa de construcción de variable básica edad en grandes grupos, según criterios y definiciones generales:

Imagen 3

2. Programa para el indicador 001: Población Total. Desagregación territorial (t101a) y poblacional (t101b1).

a. Sintaxis de programa único por indicador usando parámetros de entrada y salida en formato SIDRA

Imagen 4

b. Sintaxis de ejecución de programas batch, con la utilización parámetros definidos.

Imagen 5

3. Programa para obtener salidas con desagregación geográfica para traspasar indicadores a mapas

Imagen 6

El programa 01.01: Población Total, el tabulado resultado de la T101a es el siguiente:

Indicador 01.01. Países de la Amazonía. Población total según sexo. Total país, Región Amazónica y resto del país. Por país

Cuadro 5

Comentario final

Finalmente, una vez obtenidos los tabulados se procedió a la revisión de los datos, proceso que se realizó de manera constante y continúa, con el fin de verificar la información obtenida. Este proceso se dividió en tres fases:
1.   Revisión de datos de entrada, es decir, revisión de los valores absolutos a través de frecuencias y cruces simples de las variables involucradas en los indicadores a programar. Este primer paso se realiza en cada país, verificando los totales respecto a los datos oficiales publicados. De esta revisión se mantiene un archivo base para verificación.
2.   Revisión de indicadores totales ya calculados, esto respecto a los archivos base de verificación.
3.   Revisión de los indicadores desagregados, de acuerdo con los datos absolutos de los archivos base de verificación.

Esta metodología resultó ser muy eficiente en el sentido de programación, estandarización de variables de entrada, y de tablas de salida cuando se tiene que procesar indicadores con muchas desagregaciones para varios países utilizando las mismas fuentes de datos. Redatm resulta una herramienta muy poderosa en su eficiencia y rapidez de procesamiento.

Procesamiento con Redatam: Propuesta de indicadores sociodemográficos para la Región Amazónica a partir del análisis de datos censales y encuestas de hogar

OTCA logos

Etapas del estudio

Análisis del alcance y limitaciones de los datos censales

Alcances

Limitaciones

Indicadores desde Censos de Población y Vivienda (CPV)

Construcción y homologación de variables

Variables para los indicadores y la desagregación y filtros

Tratamiento de valores perdidos

Construcción de indicadores y la programación eficiente en REDATAM

Comentario final

REDATAM Informa N° 29

REDATAM Informa Nº 29, diciembre 2023

ECLAC Headquarters

ECLAC Subregional Headquarters in Mexico

ECLAC Subregional Headquarters for the Caribbean

Topics

Events

Contact