Estatísticas oficiais na era do Big Data: ainda precisamos de censos demográficos?

Gabriel Borges, OLAC

Todos os dias, um incontável número de informações é produzido por meio de distintas atividades cotidianas. Quando se vai ao médico, posta-se algo no Facebook ou no Tweeter, envia-se uma mensagem de texto, compra-se algum produto no supermercado, joga-se um jogo no Xbox ou se faz uma busca no Google, registros são gerados.

Estas informações, por mais que não tenham sido originalmente coletadas com esta finalidade, podem retratar importantes aspectos da realidade demográfica e socioeconômica, como: características das redes de relações sociais; padrões de migração interna e internacional; estimativa de ocorrência de gripe ou dengue; estimativas de fecundidade; indicadores econômicos, como vendas de automóveis, desemprego e expectativa de inflação; e previsão dos resultados de eleições. Estes são apenas alguns exemplos de fontes de Big Data e suas aplicações.

Em meio a esse turbilhão de informações, ainda é necessário realizar pesquisas e censos demográficos? O Big Data será capaz de substituir completamente as pesquisas tradicionais?

Estas são normalmente as primeiras perguntas feitas quando se consideram os impactos do Big Data no uso de pesquisas e na produção de estatísticas oficiais, e abarcam toda a produção de estatísticas oficiais, incluindo indicadores econômicos, como o Produto Interno Bruto (PIB) e índices de preços. Este post, contudo, concentra-se no possível impacto do Big Data nos censos demográficos, com foco no caso latino-americano.

Em pesquisa realizada com uma comunidade de mais de 800 executivos e especialistas do setor de tecnologias da informação e comunicação, foi perguntado aos entrevistados quando eles esperaram que o primeiro censo seja completamente substituído por fontes de Big Data. Mais de 80% dos respondentes disseram acreditar que isso ocorrerá antes de 2025.

No contexto de países em desenvolvimento, o uso do Big Data em estatísticas oficiais tem dividido opiniões, sendo por vezes visto com indiferença, como potencial e até mesmo como ameaça à escassez de dados em determinadas regiões do mundo. Esta discussão se origina em função de dois fatores principais: i) o crescimento do Big Data; ii) a chamada “desilusão” ou “tragédia” estatística, definidos como a persistente falta de informação em alguns países, especialmente na África.

Em livro lançado recentemente com entrevistas de dez presidentes do Instituto Brasileiro de Geografia e Estatística (IBGE), Edmar Bacha (p. 62) pergunta-se: “o IBGE agora tem que se preparar para a nova era da Informática, com essa questão toda do Big Data. Antes, o problema era Approach censitário versus amostral. Hoje, será que a gente precisa sempre ir a campo para obter a amostra? Existe o Big Data.” O ex-presidente Simon Schwartzman (p. 290) também faz uma avaliação desta relação: “Eu me lembro de que uma das coisas que eu aprendi no IBGE foi que muitos países já não fazem mais censos demográficos, porque têm os registros permanentemente atualizados. Então, no momento em que você não precisa fazer mais censo, porque você tem as informações todas em tempo real, essas coisas apontam no sentido de uma agência menor, mais enxuta, mais eficiente, que seja capaz de acompanhar as mudanças tecnológicas que acontecem no mundo todo, e responder melhor por tudo isso.”

De fato, o baixo custo e a rapidez com que as informações são produzidas têm sido apontados como os maiores benefícios do Big Data frente às pesquisas tradicionais.

Por outro lado, dúvidas a respeito da governança, confidencialidade estatística, transparência, reprodutibilidade e qualidade dos dados e métodos, ainda são questões em aberto que servem como entraves à incorporação do Big Data nas estatísticas oficiais.

GartnerHypeCycle1

O Big Data (e seu uso em estatísticas oficiais) estaria passando por alguma das fases do Hype Cycle?

A questão da governança preocupa, por exemplo, pelo fato de os Institutos Nacionais de Estatística (INE) terem pouco ou nenhum controle em relação ao Big Data administrado por entidades privadas, além de não existir garantia de que as companhias existirão e os dados continuarão a ser produzidos no futuro.

Riscos à transparência e reprodutibilidade, preocupações crescentes na comunidade acadêmica, ainda que sejam princípios muitas vezes não cumpridos pelos próprios INEs, são ainda mais complexos com o Big Data. A possibilidade do uso extensivo de fontes de Big Data no lugar de estatísticas oficiais, priorizando a rapidez em detrimento da qualidade, pode levar à perda de transparência, com impactos na democracia. Em relação à reprodutibilidade, um exemplo é o artigo crítico sobre o Google Flu, que estimava em tempo real surtos de influenza, em que os autores ressaltam vários desafios para replicar os resultados publicados.

Este mesmo artigo, questiona a qualidade dos resultados, a despeito das vantagens em termos de eficiência e custo de produção dos dados, uma vez que sobre-estimaram significativamente a prevalência de influenza.

Dados oriundos de fontes de Big Data tendem a ter também diferentes conceitos e metodologias. No caso de censos e pesquisas amostrais, o desenho da pesquisa, os métodos de coleta de dados, o questionário e os métodos de análise estatística são baseados em questões substantivas que se deseja responder. Além disso, estas pesquisas envolvem conceitos extremamente complexos. Para se ter uma ideia, basta dar uma olhada nas centenas de páginas de um manual do recenseador.

Por outro lado, fontes do Big Data produzidas até então são, em geral, dados que foram coletadas para outros fins e que devem ser adaptadas para dar respostas satisfatórias às questões teóricas de interesse. Nesse sentido, é importante que se procure evitar que a produção científica e de conhecimento seja ditada pela disponibilidade de dados, definições e conceitos do produtor da informação, que possivelmente os produziu para fins distintos.

Os sistemas de estatísticas oficiais têm estabelecido, ao longo de sua longa história, uma estrutura de qualidade em geral aceita pela sociedade, o que deveria ser também estendido para as estatísticas derivadas do Big Data. Processos e resultados definidos pelas estatísticas oficiais, contudo, são também construtos quantitativos e não representam uma “verdade absoluta”. Em relação à realização de pesquisas e censos, argumenta-se que existe também um valor intrínseco à realização dos trabalhos de campo, onde se teria condições de se ter uma melhor compreensão da realidade e seus processos históricos, contribuindo para a construção de informação contextualizada. Por outro lado, o Big Data também abre oportunidades de novas discussões conceituais e de desenvolvimentos nos processos de realização das pesquisas. Nesse sentido, as estatísticas oficiais poderiam reforçar seu papel como construtora de um espaço deliberativo para debate público sobre o quê e como medir.

Ainda em relação à qualidade dos dados produzidos pelas fontes de Big Data, a falta de representatividade e cobertura talvez seja sua maior limitação. Pesquisas domiciliares e censos (alguns possuem um componente amostral) são cuidadosamente desenhados para que seus resultados sejam representativos da população de interesse, enquanto os dados de Big Data normalmente apresentam viés de seleção, uma vez que são resultantes do uso de determinado produto ou serviço.

Interessantes saídas metodológicas têm sido apontadas para solucionar tais problemas. Em trabalho que calcula taxas de migração internacional através de dados de usuários de e-mail (que não são, obviamente, representativos da população), foi desenvolvido um modelo que usa taxas de uso de internet por sexo e idade para corrigir o viés de seleção. Estas informações são, por sua vez, baseadas em pesquisas por amostragem tradicionais. Outro exemplo interessante é o trabalho que usa dados de uma pesquisa não representativa, realizada pela plataforma de jogos Xbox, para prever resultado de eleições. Os resultados desta pesquisa são também ajustados por variáveis como sexo, idade, raça, nível educacional utilizando pesquisas representativas.

Estes dois exemplos mostram a potencialidade de fontes de dados do Big Data, mas reforçam também a necessidade de que elas sejam combinadas com pesquisas tradicionais, onde os censos demográficos têm um papel essencial.

Especificamente no contexto latino-americano, os censos demográficos seguem sendo a principal fonte de dados sociodemográficos. Além de todas as potencialidades de uso dos seus resultados, os censos constituem-se também em informação fundamental para as estimativas e projeções de população, fornecendo a população-base e informação para o cálculo dos demais parâmetros demográficos. Os censos e as estimativas decorrentes dele são também a base para expansão da amostra de pesquisas domiciliares. No contexto de crescente uso do Big Data, censos, pesquisas e estimativas de população são as fontes naturais para ajuste do viés de seleção de levantamentos originalmente não representativos.

Em outras palavras, boa parte do sistema estatístico nacional e dos indicadores sociodemográficos (e sua qualidade) é, de alguma maneira, dependente dos censos (e sua qualidade).

Ocorrendo uma vez a cada dez anos (há incertezas sobre a realização de contagens da população em períodos intercensitários), um censo de boa qualidade é o primeiro passo para estatísticas de qualidade ao longo da década, potencializando o uso de todas as demais fontes de dados.

A partir destas reflexões, é possível inferir que censos demográficos e pesquisas domiciliares seguem sendo a fonte de dados fundamental para retratar as realidades demográficas e socioeconômicas dos países latino-americanos. Mais do que isso, sua realização tende a se tornar cada vez mais importante, uma vez que tem a capacidade de potencializar o uso de todo o conjunto de informações contínuas que surge na era digital, que é também fundamental por fornecer dados conjunturais muitas vezes não coletados em censos e pesquisas tradicionais.

Com a aproximação da próxima rodada de censos 2020, é preciso seguir reforçando o papel fundamental que os censos cumprem na região. Além da garantia de realização dos censos na periodicidade estabelecida pelos seus princípios fundamentais, deve-se também buscar mecanismos que assegurem sua qualidade. Os países latino-americanos têm, de forma geral, realizado censos de qualidade (com omissão em torno de 5% nas últimas duas rodadas), mas existem casos de piora na qualidade, sendo os últimos censos realizados no Chile e no Paraguai os mais marcantes.

Uma revolução dos dados é necessária na região, mas é preciso garantir, primeiramente, qualidade de dados básicos, como informações sobre a dinâmica populacional, o que demanda sérios investimentos em recursos humanos e financeiros. O momento é propício para reforçar estas demandas, dado que a disponibilidade e consequente uso extensivo de dados do Big Data têm sido apontados como um risco real de perda de predominância dos INEs, em particular de seu financiamento. Ainda que questões financeiras não sejam necessariamente a única variável relacionada à qualidade de um censo, essa tem sido justificativa recorrente para a não realização de censos. Veja exemplos aqui, aqui, aqui e aqui.

Uma forma viável e que oferece enormes potenciais de integrar o Big Data aos censos demográficos é o seu uso através dos processos operacionais de coleta de dados e análise das informações coletadas. O Bureau de Censo dos Estados Unidos, por exemplo, tradicionalmente faz um trabalho de campo que envolve ir a todos os setores censitários (censos blocks) dos país. A disponibilidade de novas informações aérea, de satélite e imagens de ruas e avenidas, fornece alternativas a esse trabalho de campo extensivo. O uso de paradados em tempo real para acompanhar, avaliar e corrigir o trabalho de campo, é também uma importante potencialidade.

Finalmente, não se deve subestimar o valor dos registros administrativos já existentes. Ao contrário do lento progresso na melhoria da qualidade dos registros administrativos em outras regiões em desenvolvimento, diversos países latino-americanos têm se destacando pelos significativos avanços nessa área. Um melhor entendimento, organização e uso destes dados já existentes, pode facilmente produzir benefícios para as estatísticas oficiais em termos de precisão, nível de detalhes e eficiência. Contudo, apesar de já se discutir a possibilidade de uso de registros administrativos nos censos latino-americanos, a substituição dos censos tradicionais pelos modelos que usam registros administrativos, ainda parece uma realidade distante para a região. Os países europeus que optaram por esta transição têm décadas (em alguns casos séculos) de tradição em coleta de registros de qualidade. A construção um sistema de registros administrativos para esta finalidade apresenta diversas dificuldades, e pode ter custos ainda mais altos que os censos tradicionais.

A mesma analogia pode ser feita para o potencial uso de Big Data em estatísticas oficiais. A despeito do potencial baixo custo de produção da informação, sua implementação requer altos investimentos em pessoal qualificado e desenvolvimento de metodologias adequadas, além de mudanças estruturais nos INEs.

Correndo-se o risco de ser repetitivo, retoma-se a pergunta original para concluir que, sim, os países latino-americanos ainda precisam de censos demográficos (e de qualidade). Ainda que se reconheçam suas enormes potencialidades, não se pode deixar-se levar pela arrogância do Big Data (“Big data hubris”), que é a suposição de que esses novos dados sejam substitutos, e não complementares às pesquisas e métodos tradicionais.

3 pensamientos en “Estatísticas oficiais na era do Big Data: ainda precisamos de censos demográficos?

  1. OTIMAS REFLEXOES EM TEMPOS DE ECONOMIA DE TEMPO E DE RECURSO. ALGUNS PAISES DA AMERICA LATINA INVESTEM NA SUBSTITUICAO DO CENSO TRADICIONAL POR CENSO BASEADO EM REGISTROS, POR EXEMPLO. FICA A QUESTAO: Estamos sendo influenciados pela enxurrada de informações em tempo real e da “possibilidade” do uso delas sem qualquer avaliação crítica?

    Le gusta a 1 persona

  2. Gabriel, excelente artigo . Não podemos ser refratários às novas tecnologias, mas devemos ter a exata medida da contribuição que elas possam agregar ao conhecimento das realidades sociodemográficas de nossa região.

    Le gusta a 1 persona

  3. Pingback: Censos e “Big Data”: fontes concorrentes ou complementares? | OLAC

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s