Sobre o Estado dos Dados Abertos: eles enfrentam uma crise de identidade?
Qual é o estado dos dados abertos ao redor do mundo? Os dados abertos estão enfrentando uma crise de identidade? Essas são algumas das perguntas que um livro recente e o seu evento de lançamento tentam responder.
Seis meses atrás, um livro contemplando o estado dos dados abertos ao redor do mundo foi lançado pela iniciativa Open Data for Development (OD4D) (Dados Abertos para o Desenvolvimento). A OD4D é
uma parceria global que apoia a liderança do sul e ecossistemas de dados liderados localmente ao redor do mundo como uma maneira de impulsionar mudanças sociais positivas e o desenvolvimento sustentável – site da OD4D (tradução livre)
O programa é hospedado pelo International Development Research Centre – IDRC (Centro de Pesquisa do Desenvolvimento Internacional) do Canadá. O IDRC também publicou o livro, em parceria com a African Minds, uma editora sem fins lucrativos de acesso aberto. Como um livro de acesso aberto, State of Open Data: Histories and Horizons (O Estado dos Dados Abertos: Histórias e Horizontes, em tradução livre) está disponível livremente para leitura online.
Para acompanhar o lançamento do livro, o Banco Mundial organizou um evento, tanto localmente quanto online, para que as pessoas pudessem perguntar ao Tim Davis, que é um dos editores do livro, e à Anat Lewin, que é Especialista Sênior em Políticas de TIC do Banco Mundial, perguntas relacionadas ao livro e aos tópicos que ele aborda Chamado “Let’s Talk Data: Does Open Data Have an Identity Crisis?” (Vamos Falar de Dados: os Dados Abetos têm uma Crise de Identidade?, em tradução livre), ele aconteceu em 20 de maio de 2019 e eu tive a oportunidade de assistir, fazer anotações e algumas perguntas.
Privacidade e os dados pessoais em um contexto de dados abertos
Tim passou por cada capítulo do livro de trás para frente. Ele salientou a necessidade de enfrentar o desafio de lidar com a privacidade e os dados pessoais sem reforçar as velhas práticas de se agarrar aos dados sob uma ótica do controle e do medo.
Posso dizer que esse desafio não é novo, mas ele é agravado na medida em que governos e empresas estão coletando mais e mais informações pessoais dos cidadãos a todo momento. Embora alguns casos possam ser bem claros, outras vezes pode ser de fato difícil equilibrar os pesos entre a necessidade de proteção à privacidade de pessoas que têm algum tipo de relacionamento com o Estado, como o recebimento de algum tipo de recurso público, e a necessidade de divulgação e transparência ao público para que seja possível responsabilizá-los. Às vezes, diferentes sociedades atribuirão pesos diferentes a essas necessidades e chegar a diferentes resultados.
Um exemplo recente de uma dessas diferenças foi a decisão de um tribunal europeu de manter secretas as contas de € 4.416 por mês de recursos públicos gastos por parlamentares do Parlamento Europeu. Por outro lado, despesas similares da Câmara dos Deputados no Brasil são divulgadas como dados abertos (e também a sua análoga no Senado). De fato, há alguns anos um projeto financiado por meio de crowdfunding, de código aberto, destinado a rastrear essas despesas e encontrar possíveis discrepâncias usando uma rede de ativistas dedicados e ferramentas de inteligência artificial. O Projeto Serenata de Amor recebeu elogios da imprensa e até mesmo a atenção do Banco Mundial, na forma de um artigo escrito por dois dos fundadores do projeto, Yasodara Córdova e Eduardo Cuducos, sendo mostrado como um exemplo de boa governança para o desenvolvimento.
O meio termo razoável parece ser divulgar como dados abertos as informações relacionadas aos gastos de dinheiro público, como os vencimentos dos servidores públicos, ou a lista dos beneficiários do programa social Bolsa Família e os valores recebidos, mas não outras informações pessoais sobre eles, que não tenham nenhuma relação com as despesas públicas, como os seus endereços pessoais ou registros médicos. Essa tem sido a posição que prevalece no Brasil, enquanto tantos outros países têm se mostrado atrasados quanto à transparência das despesas públicas.
Falando de transparência fiscal, o Tim Davies mencionou o seu trabalho no Fiscal Data Package (Pacote de Dados Fiscais, em tradução livre), que é um padrão de dados para melhorar o reúso e a interoperabilidade dos dados de orçamento e despesas, e que tem sido cada vez mais adotado por países.
Quanto às desculpas para a não abertura dos dados sob a ótica do controle e do medo, a maioria delas foi representada há bastante tempo no Bingo das Desculpas dos Dados Abertos, junto com a argumentação quanto a por que a desculpa é infundada ou de que maneiras ela pode ser contornada. Esse Bingo dos Dados Abertos, desde então, foi traduzido para o Italiano e o Português, trazidos à minha atenção pela Fernanda Campagnucci no episódio 17 do podcast Pizza de Dados.
Ainda no tópico da privacidade, a Anat Lewin fez uma observação muito pertinente que os dados agregados que normalmente não se associam a questões de privacidade se tornam um problema dependendo do tamanho da amostra do conjunto de dados, já que ter poucas amostras em uma seção cruzada dos dados pode levar mais facilmente à reidentificação de indivíduos.
Desafios organizacionais e de governança
Alguns tópicos comentados pela Anat Lewin no evento foram relacionados aos desafios organizacionais e de governança enfrentados por governos ao implementar dados abertos:
- políticas de dados abertos precisam de uma abordagem abrangente em todo o governo e não em silos isolados
- as pessoas precisam trabalhar com dados abertos como parte do seu trabalho esperado, e não uma coisa adicional além do seu trabalho normal
- capacitação para ambos os lados da oferta e da demanda de dados
- o letramento de dados precisa ser parte dos programas principais de educação
Concordo com todos esses pontos, então vamos destrinchá-los um a um. Primeiro, a experiência nos mostra que iniciativas isoladas de dados abertos na administração pública não duram muito e morrem quando as pessoas que as patrocinam deixam a administração. Então, sim, tem que ser uma diretiva abrangente em todo o governo, patrocinado por partes interessadas no topo da hierarquia, para que tenha prioridade suficiente, para estabelecer procedimentos normas e responsabilidades que farão a iniciativa persistir no tempo. Mas, como aprendemos durante uma série de oficinas internacionais sobre o planejamento de dados abertos, organizada pela Divisão de Administração Pública do Departamento da ONU para Assuntos Econômicos e Sociais em 2016 e 2017, os procedimentos, normas e responsabilidade precisam alcançar as folhas da árvore organizacional, especialmente em países grandes, para que se possa alcançar os dados de assuntos que estão sob a responsabilidade de diferentes instituições governamentais. As lições aprendidas estão sumarizadas em um Guia para o Planejamento de Dados Abertos para o Desenvolvimento Sustentável.
A necessidade de se ter responsabilidades e papéis claramente definidos no processo de abertura de dados está também bastante de acordo com a segunda observação da Anat, pontuando que as pessoas precisam produzir a abertura de dados como parte do seu trabalho esperado.
Além disso, nenhum dos avanços conquistados no Brasil nesses anos teria sido possível sem o extenso programa de capacitação que implementamos, capacitando mais de 700 servidores públicos, presencialmente, sobre como construir planos de dados abertos, e quase duas mil pessoas pelo curso à distância. O que fizemos do lado da oferta dos dados abertos foi complementado pelo escritório local do W3C na forma de guias e cursos à distância sobre o uso de dados abertos.
Nos últimos anos, impulsionado pela necessidade percebida de mais cientistas de dados, engenheiros de dados e outros profissionais de dados relacionados em quase todos os campos, acredito que muitos cursos à distância e outros recursos atenderam, de alguma maneira, à necessidade de mais treinamento no letramento de dados. Entretanto, as habilidades de uso de dados certamente ainda não estão difundidas o suficiente para considerar que os dados abertos são algo utilizável por todas as pessoas. Mas isso será verdade algum dia? Isso é algo a se pensar.
Há oito anos, Tom Steinberg, fundador da My Society, escreveu um artigo em seu blog pessoal, repercutido no The Guardian, afirmando claramente que os dados abertos não são, pelo menos diretamente, para todas as pessoas, e sim para pessoas com as habilidades necessárias. Parece óbvio, no entanto, que mesmo assim o público em geral pode se beneficiar dos dados abertos, mesmo que não possa utilizá-los diretamente. Esse é um assunto que vale a pena revisitar em uma discussão futura. Considerando que cada vez mais pessoas estão adquirindo habilidades para lidar com dados, os dados abertos serão algum dia acessíveis a um público amplo?
Sobre o assunto do uso dos dados pela sociedade para propósitos cívicos, alguém da plateia perguntou, no contexto da responsabilização do governo, se a teoria dos “auditores cidadãos” algum dia se tornaria viável. A resposta do Tim foi que o “auditor cidadão” é possível como uma forma de cauda longa. Na medida em que as pessoas se tornam frustradas o suficiente com o governo, elas mergulharão nos dados para encontrar informações para responsabilizar e cobrar o governo.
Líderes isolados, América Latina e os desafios de se medir os impactos dos dados abertos
O livro oferece, ao mesmo tempo, uma visão geral do estado dos dados abertos ao redor do mundo, ao mesmo tempo em que também se aprofunda bastante em várias questões chave envolvendo o panorama dos dados abertos. Ele aborda como os dados abertos vão em setores específicos, como as finanças governamentais, agricultura, educação, estatísticas nacionais, etc. Ele também trata de questões atuais relacionadas a dados abertos, tais como o letramento de dados, infraestruturas de dados, algoritmos, inteligência artificial e privacidade. Além disso, os papéis de participantes chave no ecossistema de dados abertos, como governos, sociedade civil, o setor privado, academia e jornalismo. Há também uma visão geral de cada região do mundo na Seção 4.
Aqui olhamos para a América Latina e o Caribe. Os autores desse capítulo são Silvana Fumega, Diretora de Pesquisa e Políticas da Iniciativa Latino-americana para os Dados Abertos (ILDA), e Maurice McNaughton, Diretor na Mona School of Business & Management, da Universidade das Índias Ocidentais.
Nele, os autores salientam o crescimento do movimento dos dados abertos e das fortes redes da sociedade civil. Eventos regionais, como o Desarrollando America Latina e Condatos – Abrelatam, foram instrumentais na formação do progresso na América Latina. A Condatos congrega participantes de governos na região, enquanto seu evento irmão, a Abrelatam, foca em discussões sobre dados abertos pelas organizações da sociedade civil na região. Por outro lado, países que não compartilham um idioma na região, como o Brasil, têm engajado mais frequentemente, em vez disso, com a comunidade internacional, participando em eventos globais como a International Open Data Conference (Conferência Internacional dos Dados Abertos), no lugar de estarem mais integrados com os seus pares regionais.
Outro principal achado na região foi que, embora a participação e engajamento de organizações da sociedade civil tenha sido forte na região, o setor privado tem sido devagar ao adotar o uso dos dados abertos em benefício próprio.
Embora reconheça-se que o uso dos dados abertos pelas empresas do setor privado precise ser incluído nas discussões e atividades regionais, ainda não se materializaram esforços substanciais para que isso acontecesse. Há diversas companhias trabalhando com dados abertos e tecnologias cívicas na região, mas apenas um pequeno número delas trabalham junto a atores da sociedade civil e do governo na comunidade dos dados abertos, com empresas como a Properati, a Junar, e a Dymaxion Labs atuando como a exceção em vez da regra. – State of Open Data, Chapítulo 4 (tradução livre)
Em parte isso pode ser atribuído à falta de percepção pelas empresas das oportunidades de usar os dados abertos governamentais como um ativo nas suas próprias atividades de business analitycs e machine learning para obter melhores perspectivas, encontrar mais potenciais clientes para os seus produtos e serviços, cortar custos operacionais aumentando a eficiência da produção e da logística, bem como inovar em novos negócios orientados a dados. Sabe-se bem que as empresas têm tido dificuldades em encontrar profissionais suficientes com uma formação adequada em ciência de dados, engenharia de dados e outras relacionadas.
Talvez essa seja a verdadeira “crise de identidade” dos dados abertos ao redor do mundo: a necessidade de reconhecer claramente e de se difundir a percepção de que para tornar possível muitas das atividades que hoje emergem como ciência de dados, modelagem e treinamento de IA e cidades humanas e inteligentes precisamos não apenas de dados, mas sim de dados abertos. – Augusto Herrmann
Mesmo nesse meio, as pessoas frequentemente têm dificuldade em encontrar os dados que precisam, ainda que tomem a atitude pragmática (e legalmente perigosa) de somente encontrar alguns dados para usar e não se importar com os detalhes de licenciamento e as suas implicações, focando em vez disso na necessidade imediata de conseguir realizar análises ou integrações com esses dados que trarão resultados para a área fim, sem se importar com as consequências legais, por exemplo, do uso não autorizado. Às vezes as pessoas se importam se os dados são fáceis de achar e usar, mas não têm consciência da luta e ativismo de uma década pelos dados abertos e não chamam os dados abertos pelo nome, chamando-os apenas de “dados”. Isso é algo que vejo frequentemente em grupos de mensagens relacionados à comunidade de ciência de dados no Brasil. Talvez essa seja a verdadeira “crise de identidade” dos dados abertos ao redor do mundo: a necessidade de reconhecer claramente e de se difundir a percepção de que para tornar possível muitas das atividades que hoje emergem como ciência de dados, modelagem e treinamento de IA e cidades humanas e inteligentes precisamos não apenas de dados, mas sim de dados abertos.
Por outro lado, outro efeito pode estar influenciando a falta de casos documentados de impactos dos dados abertos no mundo. Há tão poucos obstáculos para se usar dados abertos governamentais, já que eles estão livremente disponíveis para todos, que algumas vezes as empresas os usam mas são resistentes em revelar para o mundo exterior o seu uso dos dados abertos. A justificativa seria que, se revelassem o seu uso dos dados abertos, alertariam a concorrência que eles também podem fazer os mesmos usos dos dados abertos, e assim perderiam uma vantagem competitiva. Tenho argumentado sobre essa possibilidade há algum tempo em minhas discussões sobre o ecossistema dos dados abertos. A julgar por um comentário que o Tim Davies fez durante a sua palestra, ele parece concordar com esse ponto, enfatizando o quão baixa é a barreira de entrada para se usar dados abertos.
Outra evidência de que as empresas que usam dados abertos não querem atrair atenção para si por fazê-lo é que, em esforços para mapear casos assim, seja usando formulários de pesquisa na web, seja realizando estudos de caso detalhados, frequentemente não se conseguem muitos respondentes. Por exemplo, o relatório Open Data’s Impact, uma análise aprofundada do impacto dos dados abertos em todo o mundo, avaliando estudos de caso, conduzida pelo GovLab da Tandon School of Engineering da New York University, revela apenas 4 casos de impacto dos dados abertos na América Latina.
Podemos ver um cenário semelhante ao olhar para outra pesquisa que é mais abrangente, aberta para qualquer um enviar casos de uso. O Open Data Impact Map (Mapa do Impacto dos Dados Abertos, em tradução livre) também é financiado pelo IDRC e pelo Banco Mundial, mas também tem dezenas de apoiadores regionais. Na seção de relatórios regionais, podemos ver que, excetuando-se o México, há apenas 72 casos de impacto dos dados abertos na América Latina. O motivo para não contar o México é que ele é claramente uma exceção isolada na América latina, contando com 95 casos de impacto, o que é mais que todos os demais países da região somados.
Na verdade, essa é uma tendência que pode ser observada também em outras regiões do mundo: uma exceção isolada tem um número desproporcionalmente alto de casos de impacto dos dados abertos, enquanto todos os outros países na região possuem muito menos casos documentados. Além do México na America Latina e Caribe, há o Reino Unido na Europa e Ásia Central, os Estados Unidos na América do Norte e a Índia na Ásia Meridional (essas são algumas das divisões regionais do mundo usados naquele estudo).
Considerações finais
No fim das contas, vale a pena ler o livro State of Open Data para qualquer um que se importe com os dados abertos ao redor do mundo, enquanto ele ainda está atualizado. Não deixe de conferi-lo.
Quanto à suposta crise de identidade dos dados abertos, as política de dados abertos precisam de uma nova roupagem? Algum dia os dados abertos vão alcançar uma percepção mais ampla na sociedade? Quando mesmo as pessoas que precisam e usam os dados todos os dias não estão familiarizadas com os conceitos básicos de abertura, essas são algumas das questões emergentes que ficam para reflexão.