Censos e “Big Data”: fontes concorrentes ou complementares?

bigdata

Marden Campos, OLAC

A grande novidade dos estudos demográficos nos últimos anos é a utilização de bases de dados virtuais como fonte de informação. Oriundos da internet e do sistema de telefonia –  informações de redes sociais digitais, acesso a sites, chamadas telefônicas, mensagens eletrônicas, servidores de email, dentre outros –, essas grandes bases de dados (“big data”) entraram de vez na lista de fontes que os estudiosos de população lançam mão para estudar o comportamento reprodutivo, o padrão de doenças, a mobilidade espacial, dentre outros aspectos relacionados à dinâmica populacional.  Exemplos disso são a criação de um grupo de trabalho global sobre big data na divisão de estatística das nações unidas , o painel científico da União Internacional para o Estudo Científico de População (IUSSP) sobre Big Data and Population Processes  e a presença de oficinas de trabalho e de uma mesa redonda sobre Web and Social Media for Demographic Research no congresso conjunto da Associação Latinoamericana de População (ALAP) e Associação Brasileira de Estudos Populacionais (ABEP) realizado no último mês de outubro . Além disso, o tema é central para os debates que ocorrem o neste blog , para o qual buscamos contribuir um pouco mais.

Sendo uma ciência social aplicada, intimamente ligada a produção e utilização de fontes de dados, não estranha que a Demografia esteja atenta às novas e ricas informações geradas pelas novas tecnologias de comunicação. O que tem causado certo estranhamento é que, talvez pela empolgação do ineditismo e excitação da novidade, alguns estudiosos de população denigram, sem uma reflexão aprofundada, das tradicionais fontes de informação que sustentaram a maior parte do campo disciplinar nos últimos séculos, como os registros de população e as pesquisas domiciliares, entre as quais se destacam os censos demográficos. Estudos sobre uso de big data e social media tem sido justificados, apressadamente, como mais rápidos, mais baratos e menos invasivos do que as pesquisas censitárias, como se essas fontes de informação – cujo alcance, profundidade e credibilidade ainda estejamos longe de conhecer – pudessem, da noite para o dia, substituir pesquisas cujo aperfeiçoamento contínuo garante o uso com extrema segurança.

O objetivo deste trabalho é discutir a relação entre as novas fontes de informação provenientes de redes de comunicação, que denominaremos de “big data” e os dados provenientes dos censos demográficos. Nosso objetivo é mostrar que, mais do que bases de dados concorrentes, os censos e o big data são informações altamente complementares e que o uso de cada uma dessas fontes de informação, se feito de forma adequada, pode beneficiar enormemente o uso da outra, contribuindo para o melhor entendimento da dinâmica populacional. Como estudo de caso, serão utilizadas informações relativas a variáveis relacionadas a temática sexual e reprodutiva, extraídas de dados agregados do Facebook, além de informações do Censo Demográfico brasileiro de 2010 sobre mulheres em idade reprodutiva.

O Facebook Ads como fonte de análise do comportamento sexual e reprodutivo

Todos os dias milhões de pessoas revelam seus interesses no Facebook, cujo número de usuários em todo mundo chega a quase 2 bilhões. Esses dados são usados pela plataforma para construir estratégias de marketing, através de anúncios direcionados (target advertising). Além de ser uma estratégia milionária para a captação de recursos, as ferramentas de segmentação de mercado do Facebook proporcionam uma rica fonte de dados para estudos demográficos. Isso é possível dado que é possível segmentar os usuários segundo o interesse, o sexo, a idade e região de residência, criando grupos com atributos e interesses comuns. Dado que a precisão dessas estimativas é de grande interesse do Facebook, que vendem anúncios com base nelas, acreditamos que ela é uma informação de elevada qualidade.

Faremos uma experiência de utilização das ferramentas de alcance de anúncios do Facebook para caracterizar o comportamento sexual e reprodutivo, no uso da plataforma, entre aqueles com entre 15 e 49 anos de idade, por sexo, residentes no Brasil, segundo alguns interesses fornecidos pela própria plataforma. São eles: “reprodução”, “preservativo”, “contracepção de emergência”, além de usar a distribuição dos usuários sem definir nenhum interesse como grupo de referência da análise. Segundo o próprio Facebook, o direcionamento dos usuários por interesse permite que se defina um público de acordo com hobbies e páginas que o público curte no Facebook, além daqueles obtidos das atividades, escolaridade, cargos, páginas curtidas, grupos a que pertencem e aplicativos utilizados para se contectar à plataforma.

E preciso destacar que todo cuidado é pouco ao se usar uma fonte de informações que ainda não teve seu conteúdo exaustivamente examinado para estudos científicos. Conforme se mostrará, entretanto, o uso dessa informação junto a outras bases de dados, como o Censo, pode qualificar significativamente o seu uso.

Comportamento dos usuários quanto a temática sexual/reprodutiva

Os termos “reprodução”, “contracepção de emergência” e “preservativo”, tomados como interesse de usuários do Facebook de ambos os sexos residentes no Brasil, são de interesse de 4,2 milhões, 1,9 milhões e 3,3 milhões de usuários, respectivamente. A figura 1 mostra a distribuição por sexo e idade das taxas de interesse desses usuários, calculada com base na divisão do número de usuários estimados pelo Facebook para cada interesse sobre o total de usuários de cada grupo etário, por sexo, sem nenhuma restrição de interesse. Embora não seja objetivo deste trabalho discutir o comportamento dos indivíduos segundo as variáveis selecionadas, e sim apresentar possibilidade de uso da ferramenta em relação à outras fontes de informação, é interessante notar a predominância de mulheres em todas as estimativas, inclusive naqueles referentes à “preservativo” cujo principal tipo é usado no corpo dos homens. Também merece destaque a concentração do interesse por “contracepção de emergência” (e mesmo “preservativo”) entre as mulheres com idade relativamente elevada.

 FIGURA 1 – Taxa de interesse por sexo e grupo de idade, segundo interesses selecionados

fig-1

Fonte: Facebook©. Acesso em 30/10/2016.

Qualquer analista um pouco mais cuidadoso, contudo, perguntaria: certo, as análise são interessantes, os dados são muito ricos e nos dão informações preciosas ao custo praticamente zero, mas, afinal: qual parcela da população esses dados representam? Em que medida afetam o número de nascimentos e sua distribuição por idade das mães? Em que contexto (reprodutivo) social esses comportamentos estão inseridos? Esses são tipos de questões que, hoje, ainda limitam o alcance e a credibilidade dos dados de mídias sociais para análises demográficas sérias e, se quisermos lançar mão dessas fontes de informação nos próximos anos, são as questões que devemos enfrentar.

O Censo como suporte para o uso do big data

Enquanto os censos são vistos como operações caras, morosas, com baixa periodicidade e baixa profundidade temática, os dados provenientes de mídias sociais e plataformas digitais são celebrados pelo acesso fácil, baixo custo e pela disponibilidade da informação em tempo real. Contudo, a estratégia de opor essas fontes de informação, acreditamos o caminho virtuoso em termos de uso de novas fontes de informação populacional nos próximos anos é investir na complementariedade e no “diálogo” que pode ser estabelecido entre essas bases de dados.

Exemplo: no caso em questão, podemos perceber a distribuição etária das mulheres em idade reprodutiva com base no Censo (que contabilizou 53,6 milhões de mulheres com entre 15 e 49 anos) e o público do Facebook utilizado nessa análise (mulheres com entre 15 e 49 anos que a plataforma do Facebook Ads estimou como usuários para anúncios sem interesse específico, que gira entorno de 3,8 milhões de usuárias).

FIGURA 2 – Distribuição etária percentual de mulheres segundo fonte de informação

fig-2

Fonte: IBGE, 2010 e Facebook©. Acesso em 30/10/2016

Podemos perceber que a estrutura etária das usuárias do Facebook é muito mais jovem que a captada pelo Censo, sem contar a ainda baixa penetração dessa mídia frente ao total da população recenseada. Mesmo assim, seria essa uma amostra representativa da população? Esse é um tipo de resposta facilmente captável em pesquisas domiciliares, ou no próprio Censo.

Enquanto fornecem suporte para as inferências feitas com base em registros, surveys e, cada vez mais, fontes digitais de informação, essas bases de dados não só permitem uma atualização das tendências populacionais captadas pelos censos como podem “aliviar” a pressão sobre ele no que diz respeito à quantidade de temas investigados.

Quem sabe não podemos adotar uma estratégia de integração e compatibilização cada vez maior de censos, pesquisas, registros e dados de big data, na construção de um verdadeiro Sistema de Informações sobre População, deixando ao censo a tarefa vital de enumerar a população segundo o sexo e idade e às outras fontes de informação aquilo que é mais rápido, fácil e barato de se fazer? Acreditamos que a instigação do confronto e concorrência entre as fontes de dados enfraquece o que cada uma delas tem de potencial. A comparação, complementariedade e integração, pelo contrário, favorece o conhecimento eficiente do comportamento populacional, inclusive, em tempo real!

 

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

w

Conectando a %s