miércoles, septiembre 17, 2008

La polémica continúa: desigualdad y encuestas

A través de la lista de Río Abierto, Pedro Francke comenta el post que escribiera Stanislao Maldonado sobre mis artículos "El INEI subestima la desigualdad" y "El sonsonete que enroncha a García".
Fecha : Sun, 14 Sep 2008 16:41:06 -0500

Asunto : Re: [RA] Torturar los datos para decir medias verdades: midiendo la desigualdad con la encuesta de Apoyo

Hola Stany. Algunos comentarios:

Tus càlculos sobre el tamaño de muestra y sus efectos sobre la confiabilidad de las cifras, comparando INEI e Ipsos-Apoyo solo tratan el problema del llamado \"error muestral\". El punto planteado por Mauro, como por otros (incluyendo yo mismo), es que existe un importante \"error no muestral\": simplemente los muy ricos no contestan la encuesta, por lo cual aun cuando en el procedimiento de la encuesta sean reemplazados por otros, ese reemplazo es \"sesgado\" y los resultados no son confiables. Por tratarse de un error no muestral, no hay forma de establecer un paràmetro de confiabilidad de los datos.

El problema es que en todos los calculos usuales de la pobreza, incluyendo los ùltimos que escribiste y pusiste en tu blog, suponen implìcitamente otra hipòtesis no falseable (hasta donde yo conozco para el Perù): que los errores no muestrales son cero.

No tenemos una forma exacta de calcular el tamaño de este error no muestral, aunque una aproximacion simple indica que el consumo total privado segun las encuestas de hogares solo llega a un 60 a 70% del consumo privado de las Cuentas Nacionales. Es evidente que el error no muestral es muy grande, aunque no sabemos a que grupo social corresponde el consumo \"faltante\". Creo que esta evidencia es suficiente para demostrar que el supuesto \"error no muestral = 0\" es falsa.

¿Es entonces cientifico suponer que, si bien hay un error no muestral, ese error no muestral seria el mismo a lo largo del tiempo y por lo tanto no cambia la direccion de las variaciones en la distirbucion? Tampoco, si comparas como evoluciona la suma del consumo privado de las ENAHO con las Cuentas nacionales, veràs que tampoco hay una relaciòn estable.

Finalmente, sabemos que en los ùltimos 3 años solo las empresas mineras han elevado sus ganancias en mas de 15 mil millones de soles anuales. He comparado en varios articulos la relacion entre eso y los aumentos de consumo de todos los pobres, y estas sobreganancias son 8 veces màs. Mi hipòtesis es que eso ha modificado sustancialmente la distribuciòn del ingreso en el Perù (aunque en parte se refiere en estricto a rentas de actores del exterior que no se consideran parte del ingreso nacional).  Esas ganancias de un centenar de familias no està registrado en las ENAHOs, lo que es obvio si uno compara como evolucionan los ingresos del percentil superior en las ENAHO.

¿Podrìas producir evidencia que contradiga mi hipòtesis?


3 comentarios:

Farid Matuk dijo...

Algunos comentarios sobre el tema:

1) Para medir los errores no muestrales se compara la tasa de no respuesta con el marco de referencia, usualmente un censo de población.

2) Usualmente la muestra es estratificada, y el criterio de estratificación es intrínseco al marco muestral, es decir el censo de población.

3) Se puede cuestionar que el censo de población tiene una tasa de no respuesta sesgada (los ricos no abren la puerta)

4) Para reducir la tasa de rechazo (los ricos no abren la puerta) es mejor un cuestionario censal simple versus uno complejo.

5) Para reducir la tasa de rechazo (los ricos no abren la puerta) es mejor un censo de varios días, que permite revisita, versus un censo de un día.

6) Las cuentas nacionales no miden el consumo de manera directa, hasta el año 2000 era puramente residual. A partir de 2001, cuando la muestra de la ENAHO es 20,000 hogares, el tramo de consumo de alimentos se mide directo, y el tramo de no alimentos es residual.

7) Al año 2006, el Perú tenía la mejor medición de Latinoamérica del consumo privado, porque el tramo de alimentos se medía durante los doce meses del año.

8) La reserva tributaria de la SUNAT impide un cálculo alternativo de los ingresos de los hogares, como es la metodología convencional de los países industrializados

Raul Mauro dijo...

Gracias Farid por tus apreciaciones. Creo que hasta el momento se ha
generado una interesante discusión que ojalá el INEI (o sus asesores
más centrados) lo recojan.

Espero igualmente que Stanislao cuelgue el archivo para verificar sus
resultados y ver si hay mejores aproximaciones. No me había percatado
que su principal argumento sobre el tamaño de muestra de Lima (los 12
mil frente a los mil y pico de Apoyo) era falso. Así que espero que no
defraude con lo segundo.

Sobre el problema de cumplimiento de la encuesta de hogares (survey
compliance), sobre todo en los ricos, y su efecto sobre la
desigualdad, creo que puede ayudar en el debate revisar el siguiente
documento:

Mistiaen J. & Martin Ravallion, (2003) "Survey compliance and the
distribution of income". Policy Research Working Paper 2956.
Development Research Group. The World Bank.

Farid Matuk dijo...

Hola Raúl:

Leí el texto que me recomendaste y ciertamente es ilustrativo de la falta de transparencia en el proceso de corregir los errores no-muestrales.

Cuando estando en el INEI, recibí por vez primera los informes de Herrera sobre pobreza 2002-IV, uno de los problemas es que los resultados preliminares eran muy inestables al compararse entre si, me refiero a que no había convergencia.

Ya en esa época se negaba a entregar los programas de cómputo, y por ello vino como consultor mi profesor de econometría en Ottawa, que estaba jubilado por ese entonces. Lo que él encontró es que los factores de expansión eran disparatados y sin coherencia alguna, y la razón era que discrecionalmente se alteraban estos para corregir los errores no muestrales.

Esto puede ser verificado en cualquier base de datos de la ENAHO al efectuar una tabla de frecuencias de los factores de expansión. Como los tamaños de muestra de Tumbes y Cajamarca son prácticamente iguales, los factores de expansión difieren a nivel departamental, pero son estables internamente con la salvedad de urbano y rural.

Pero al ir a Lima Metropolitana, en principio todos los estratos tienen ponderaciones semejantes, pero los casos de no respuesta alta como puede ser San Isidro o La Molina se corrigen con el factor de expansión sin documentación que respalde el criterio.

En los cuatro primeros meses de 2006, el procedimiento es alterado, y hogares con no-respuesta son imputados y de esta manera tienen "respuesta". Esto se concluye al observar que la tasa de no respuesta tuvo una caída vertical entre Diciembre 2005 y Enero 2006 (ver documento oficial del INEI para pobreza 2007). Y luego de la liposucción se aplica el mismo criterio no documentado de alterar los fatores de expansión.

En síntesis, el INEI debiera publicar los criterios utilizados para corregir la no-respuesta.

Saludos, Farid