Dados Abertos em perspectivas: um relato do Open Data Day 2020 no Arquivo Nacional

imagem: Arquivo Nacional

por Augusto Herrmann em 8/3/2021

Há um ano eu estava em um dos dois eventos do Open Data Day no Rio de Janeiro, que foi organizado pelo Arquivo Nacional. O evento aconteceu um dia antes, na sexta-feira, levando em consideração que o Open Data Day é sempre em um sábado, pois assim funcionaria melhor para a instituição organizar um evento em um dia útil.

Eu fui convidado para palestrar lá sobre o próprio Open Data Day: o que ele é, por que é importante e como foram alguns dos eventos do ODD anteriores. As outras palestras no evento também mostraram outras perspectivas sobre os dados abertos. Otávio Neves, Diretor de Transparência e Prevenção da Corrupção na Controladoria-Geral da União (CGU) mostrou a direção atual da política de dados abertos. Luana Sales, Coordenadora-Geral de Acesso e Difusão no Arquivo Nacional, falou sobre a gestão de dados de pesquisa e práticas arquivísticas para dados. Então, Patricia Henning, professora na Unirio, explicou os princípios FAIR de gestão de dados e a iniciativa GOFAIR. Por fim, houve uma mesa de discussão sobre o lançamento do livro sobre dados abertos de pesquisas. Este texto são as minhas anotações do evento, junto com algumas observações do que mudou de lá para cá. São as minhas próprias palavras e não representam os pontos de vista ou mesmo precisamente o que disseram os palestrantes no evento. Para isso, a gravação do evento inteiro está disponível no YouTube. Está separada entre as partes da manhã e da tarde.

Mesa de abertura

O evento abriu com uma introdução da Diretora-Geral do Arquivo Nacional, Neide de Sordi, falando remotamente de Brasília, seguida de uma discussão com Otávio Neves da CGU e Vanessa Jorge da Fundação Oswaldo Cruz (Fiocruz).

Uma discussão entre Neide de Sordi, Otávio Neves e Vanessa Jorge abriu esse evento do Open Data Day 2020 Rio. Imagem da gravação do Arquivo Nacional no YouTube.

A Sra. de Sordi explicou que o Arquivo Nacional é responsável pela política de gestão de documentos em todo o governo federal brasileiro e que é hora da instituição apoiar e colocar em prática os dados abertos. Vanessa Jorge contou como o Brasil foi um dos fundadores da Parceria para Governo Aberto e como funciona o processo do Plano de Ação com avaliação independente.

O Open Data Day e o seu histórico no Brasil

A minha palestra, cujos slides estão disponíveis no SlideShare, teve dois tópicos principais: dicas de como organizar um evento do Open Data Day (até o momento, geralmente presenciais) e o histórico do Open Data Day no Brasil.

Augusto explica o que é o Open Data Day, no ODD Rio de Janeiro 2020. Imagem da gravação do Arquivo Nacional no YouTube.

Depois de uma breve introdução sobre a minha própria trajetória no movimento de dados abertos e o meu envolvimento em trazer os dados abertos enquanto política pública ao governo federal, eu mostrei o site do Open Data Day, de que maneira qualquer um poderia traduzir o conteúdo para o seu próprio idioma se tiver tempo para contribuir e, o mais importante, como registrar lá o seu evento.

Então em mencionei como eu havia participado em 14 de janeiro de uma live preparada pelo projeto Embaixadoras da Open Knowledge Brasil (OKBR), na qual discutimos dicas de como organizar um evento do Open Data Day. Nós tivemos tantas boas ideias que logo em seguida a OKBR as compilou em um guia de organização de eventos do ODD.

O Open Data Day é uma coleção de eventos descentralizados ao redor do mundo, todos acontecendo no mesmo dia ou pelo menos próximo à data oficial, na temática dos dados abertos. As atividades variam desde discussões gerais sobre os dados abertos até experiências mão-na-massa para fazer algo de útil com eles. Juntar pessoas interessadas nos dados pode trazer discussões interessantes, ideias e produtos colaborativos. É claro que a sinergia de reunir pessoas e a troca de ideias trazem resultados que são maiores que a soma de suas partes,

Então eu continuei contando o máximo que havia sido capaz de encontrar a respeito do histórico de eventos do Open Data Day no Brasil e coisas interessantes que foram construídas neles. Entretanto, isso e alguns conselhos sobre como organizar os eventos serão mostrados em detalhes em outro texto meu.

Eu segui ilustrando algumas das organizações que apoiam o Open Data Day: a Fundação Open Knowledge, os patrocinadores do esquema de minibolsas e outras organizações que promovem eventos locais descentralizados (tal qual o Arquivo Nacional, neste caso).

Registrando documentos de domínio público na Wikimedia Commons

Depois da minha palestra, Neide de Sordi pediu ao Diego (desconheço seu sobrenome, que não foi mencionado no evento) da assessoria de comunicação do Arquivo Nacional para mostrar um projeto que envia muitos documentos históricos e de domínio público do Arquivo Nacional para a Wikimedia Commons. Isso ajudou os editores da Wikipédia a encontrar fontes primárias para citar em artigos da Wikipédia.

Um cartaz de 1888 comemorativo do fim da escravidão no Brasil. Um cidadão branco e um cidadão negro apertam as mãos. UmA banner lê 'Lei n.º 3353 de 16 de março de 1888'. Abaixo, uma legenda 'agora sim!'. — Um cartaz de 1888 comemorativo do fim da escravidão no Brasil. Um dos muitos documentos digitalizados e enviados pelo Arquivo Nacional para a Wikimedia Commons e usado, por exemplo no artigo da Wikipédia sobre a Lei Áurea.

O Arquivo Nacional não apenas enviou um grande número de documentos históricos digitalizados, mas também promoveu um concurso com prêmios para os editores que mais contribuírem para acrescentar essas imagens para ilustrar e servir como fonte de informação para artigos na Wikipédia.

O estado da Política de Dados Abertos

A próxima palestra foi do Otávio Neves, da Controladoria-Geral da União (CGU), que é responsável pela política de dados abertos do governo federal desde julho do ano anterior, quando o Decreto n. 9.903/2019 a transferiu do Ministério da Economia para a CGU.

O Sr. Neves situou os dados abertos no contexto da Parceria para Governo Aberto (OGP), que no Brasil é coordenada pela CGU. Ele mencionou que os dados abertos têm algumas características em comum com o governo aberto e que ele pretendia explorar essas sinergias para progredir em ambos ao mesmo tempo. Ele lembrou como a Lei de Acesso à Informação brasileira estabeleceu, em seu artigo 8º, requisitos de dados abertos nas atividades de transparência ativa.

Otávio Neves falando. Atrás dele, um slide contendo informações sobre a Lei de Acesso à Informação. 2011. Lei de Acesso à Informação. Informação: dados estruturados ou não. Relatórios em formatos eletrônicos, incluindo abertos e não proprietários. Possibilitar o acesso automatizado por sistemas externos. — Otávio Neves fala sobre os aspectos de dados abertos na Lei de Acesso à Informação. Imagem do Arquivo Nacional.

Ele continuou explicando o histórico da política de dados abertos, algo do qual fui parte. A criação da Infraestrutura Nacional de Dados Abertos (INDA) em 2012, que não funciona necessariamente como uma infraestrutura de dados em si, mas como uma ferramenta de gestão e fomento para que as muitas organizações da administração pública abram os dados. Para saber mais sobre o histórico do comitê da INDA, por favor veja a minha postagem de blog onde eu conto sobre isso em detalhes. Ele também salientou a importância da criação do Portal Brasileiro de Dados Abertos como um ponto central onde cidadãos possam encontrar dados de muitas organizações governamentais.

Em seguida, ele falou do conceito de governo aberto, como sendo uma cultura onde o governo trabalha em colaboração com a sociedade de uma maneira transparente. O Brasil foi um dos fundadores da OGP em 2012. Ele citou como exemplo como o Waze compartilhou dados com as autoridades para a gestão do trânsito. O outro lado é quando o governo disponibiliza dados abertos que são então usados pelo setor privado para criar soluções e serviços. Ele mencionou que há muitos estudos indicando que os dados abertos têm um efeito positivo agregado na economia.

Então, em 2016, o Decreto n.º 8.777 reforçou a política de dados abertos exigindo que todas as instituições do governo federal criassem os seus próprios planos, detalhando quais conjuntos de dados abririam nos dois anos seguintes. O Ministério do Planejamento fazia a gestão e capacitação, enquanto que o papel da CGU era monitorar cada um deles no cumprimento das normas. Enfim, em 2019, o Decreto n.º 9.903 colocou a totalidade da política de dados abertos sob a tutela da CGU, juntamente com as de governo aberto e transparência que já estavam lá.

Ele comparou as diferentes formas de se disponibilizar informações. Os dados abertos são muito flexíveis, pois as pessoas podem reutilizá-los de muitas maneiras diferentes. Porém, não é acessível a todos, já que muitas pessoas não são capazes de lidar com eles, fazer cruzamentos de dados, construir visualizações, etc., por falta de habilidades técnicas. A transparência clássica, por outro lado, está pronta para que as pessoas não técnicas compreendam imediatamente. Segundo ele, essas pessoas preferem que o governo construa diretamente as visualizações de dados e as mostre a elas. Então públicos-alvo diferentes preferem de uma ou da outra maneira.

Algumas áreas em que a CGU pretende desenvolver a política de dados abertos são a capacitação de servidores públicos, construir redes de pessoas, como promover oficinas para conectar pessoas, por exemplo, com habilidades de análise de dados com pessoas com conhecimentos sobre políticas públicas.

Em seguida, foram mostrados alguns exemplos de organizações da sociedade civil que usaram solicitações de acesso à informação, dados abertos e práticas colaborativas para construir aplicações úteis, casos de jornalismo orientado a dados, etc.

Enfim, o Sr. Neves mostrou as áreas prioritárias que a CGU pretendia trabalhar com a política de dados abertos nos dois anos seguintes. Um ano depois, ainda estou por ver algum progresso significativo em qualquer uma delas. Todavia, para ser justo, muitas dessas ideias estavam presentes no Plano de Ação aprovado em uma reunião do Comitê Gestor em fevereiro de 2021 – apesar de que esse comitê ainda não foi formalizado depois de ter sido extinto pelo Decreto n.º 9.759/2019, artigo 5º. Veja a postagem de blog sobre o Comitê que escrevi em dezembro passado para mais informações sobre isso. Além disso, até onde sei, o Plano de Ação aprovado em fevereiro ainda não foi disponibilizado ao público até agora.

Atualização (2021-03-09): A Open Knowledge Brasil conseguiu, por meio de um pedido pela Lei de Acesso à Informação, tornar disponível o conteúdo do Plano de Ação para 2021-2022, aprovado em fevereiro. Você também pode ler a avaliação do plano feita pela entidade.

Gestão de dados de pesquisa e arquivística de dados

As apresentações da tarde começaram com Luana Sales, do Arquivo Nacional. Ela explicou o conceito de ciência aberta, tendo a reprodutibilidade como sendo um de seus pilares. Reprodutibilidade é a possibilidade de se reproduzir um experimento científico sob as mesmas condições presentes na pesquisa original, de maneira que ela possa ser revisada por pares. Isso inclui não apenas a transparência da metodologia utilizada, como também a disponibilidade dos códigos de computador e os conjuntos de dados utilizados. Acesso aos resultados como artigos acadêmicos também é essencial para a reprodutibilidade, por isso é importante ter acesso aberto às publicações e não tê-las trancadas por trás de paywalls das editoras científicas.

Luana Sales fala no auditório do Arquivo Nacional para o Open Data Day 2020. — Luana Sales fala sobre ciência aberta e gestão de dados de pesquisa. Imagem da gravação do Arquivo Nacional no YouTube.

Ela falou dos benefícios da colaboração entre pesquisadores usando as redes sociais, possibilitado uma maior troca de ideias.

Mas o compartilhamento de dados abertos de pesquisas precisa ser mediado por práticas de gestão. Por exemplo, certificando-se de que dados pessoais não sejam inadvertidamente disseminados justamente com os mesmos. Segundo a Sra. Sales, essas práticas de gestão mde dados têm muito em comum com as práticas de arquivística: arquivamento, curadoria, preservação e continuidade do acesso.

Identificar quais dados serão compartilhados como dados abertos de pesquisa pode ser um desafio em si mesmo, já que os dados que são relevantes são dependentes do contexto. Dados que são úteis em um contexto podem também ser, ou podem não o ser, em outro contexto. Por exemplo, muitos diários de bordo que foram anteriormente usados em um contexto de pesquisas históricas foram usados em pesquisas climatológicas, já que contêm indícios sobre como o tempo e os ventos oceânicos eram séculos atrás.

Ela mostrou uma definição para dados abertos de pesquisa que ela e o Prof. Sayão propuseram. Então, ela mostrou uma taxonomia proposta de tipos de dados de pesquisa e categorizações de acordo com a origem dos dados, como dados observacionais de um experimento, por exemplo. Ela discutiu quais elementos da pesquisa precisam ser preservados para a reprodutibilidade, por exemplo, workflows, modelos, os instrumentos utilizados, cadernos de pesquisa, etc. Os dados precisam estar acompanhados da documentação de toda a cadeia de proveniência. Tudo isso importa para que o próximo pesquisador possa confiar nos dados e usá-los em sua próxima pesquisa. and use it in new research.

A Sra. Sales defendeu as vantagens de se compartilhar abertamente os cadernos de laboratório usados em pesquisas. Como hoje em dia eles são eletrônicos, eles podem receber dados diretamente a partir dos instrumentos. Compartilhar ajuda que os pares possam auditar e revisar seu conteúdo. Ao determinar o que precisa ser preservado, todavia, a probabilidade de que aquela peça em particular seja útil no futuro também é algo a se levar em consideração, embora às vezes isso seja difícil de se determinar.

Então, para preservar os dados de pesquisa para o reúso futuro, precisamos não apenas de metodologia, mas também de infraestrutura e práticas de gestão de dados. Precisamos de profissionais especializados como arquivistas de dados. A Sra. Sales descreveu algumas das atividades que um ou uma arquivista de dados precisaria fazer. Um dos desafios que as organizações e indivíduos enfrentam hoje ao lidar com dados é separar os dados pessoalmente identificáveis ou sigilosos, de forma a evitar revelá-los inadvertidamente. Esses profissionais poderiam ajudar a enfrentar esse desafio.

Os princípios FAIR

Patricia Henning começou afirmando que estudou na Holanda com o professor Luiz Bonino, que é um dos proponentes originais dos princípios FAIR. Ela explicou que o que esses princípios defendem não é nada novo para arquivistas e bibliotecários. Eles apenas foram dispostos em uma lista de maneira fácil de se compreender. Eles estão bastante conectados com as práticas necessárias expostas pela Luana Sales na apresentação anterior.

Patricia Henning fala no auditório do Arquivo Nacional para o Open Data Day 2020. Atrás dela, os slides leem 'o que 'o que o GOFAIR Brasil está fazendo'. — Patricia Henning explica os princípios FAIR. Imagem do Arquivo Nacional.

Ela expôs os problemas comuns com os dados que são uma barreira ao reúso. De acordo com Bonino, 80% dos dados são peridos para sempre porque eles não são adequadamente arquivados. Também, 80% do tempo é gasto fazendo a limpeza dos dados, deixando apenas 20% para pesquisa e inovação. Somente uma pequena parcela das pesquisas que são financiadas com recursos públicos é reprodutível com os dados de pesquisa depositados em repositórios de dados.

Para tratar esses problemas, os proponentes do FAIR elaboraram em 2014 um conjunto de 15 princípios de forma que encontrar e reutilizar os dados fosse tão fácil quanto encontrar páginas e consumir informações usando um mecanismo de busca. FAIR significa dados encontráveis (Findable), acessíveis (Accessible), interoperáveis (Interoperable) e reutilizáveis (Reusable).

Os princípios FAIR se tornaram mais amplamente conhecidos em 2016, quando um artigo sobre eles was foi publicado na revista Nature. Desde então, o G20, o G7 e a Comissão Europeia todos adotaram os princípios. A Sra. Henning mostrou muitos exemplos de documentos de políticas na Europa relacionados ao financiamento de pesquisa e gestão de dados, todos adotando o FAIR, incluindo uma exigência para se receber recursos públicos para o financiamento de pesquisas. Mais recentemente, em fevereiro de 2021, eu li a Estratégia de Dados do governo federal alemão, que também reafirma a meta de seguir os princípios FAIR. Isso pode ser visto como uma evidência de que o apoio ao FAIR está tão forte hoje como nunca.

Então, o que os princípios FAIR? Patricia Henning observou que a maioria deles se aplicam a tanto os dados quanto os metadados (os quais, se você não tem familiaridade com o termo, são dados que descrevem os dados). Sob encontráveis (findable), o FAIR afirma os seguintes princípios (com algumas das observações da Sra. Henning):

F1 Aos (meta)dados são designados um identificador único global e persistente
- não é necessário usar um esquema caro como o DOI, há alternativas gratuitas para se atribuir identificadores únicos aos dados e aos metadados
F2. Os dados são descritos por metadados ricos (definindos pelo R1 abaixo)
F3. Os metadados incluem clara e explicitamente o identificador dos dados que eles descrevem
- isso pode parecer óbvio, mas é preciso garantir que está presente
F4. Os (meta)dados são registrados mou indexados em um recurso pesquisável
- um repositório de dados pode cumprir esse papel

Sob acessíveis (accessible), os princípios são:

A1. Os (meta)dados são recuperáveis pelo seu identificador usando um protocolo de comunicações padronizado
A1.1 O protocolo é aberto, gratuito e universalmente implementável
A1.2 O protocolo permite um procedimento de autenticação e autorização, onde necessário
- por exemplo, para escrever dados e metadados ao repositório, mas também em casos em que se aplicam restrições de acesso aos dados (ex.: dados pessoais)
A2. Os metadados são acessíveis, mesmo quando os dados não estiverem mais disponíveis

Para interoperáveis (interoperable):

I1. Os (meta)dados usam uma linguagem de representação do conhecimento formal, acessível, compartilhada e amplamente aplicável
- este é provavelmente o princípio mais custoso e desafiador de se implementar, já que muitas pessoas, mesmo na Europa, não entendem o que isso significa – usar os padrões da web semântica, como o RDF
I2. Os (meta)dados usam vocabulários que seguem os princípios FAIR
- assim como os dados e metadados que usam esses vocabulários, pode ser também um desafio
I3. Os (meta)dados incluem referências qualificadas para outros (meta)dados
- interligar os (meta)dados (vide Linked Data) também pode se mostrar algo desafiador e custoso

Enfim, para reutilizáveis (reusable):

R1. Os (meta)dados são ricamente descritos com uma pluralidade de atributos precisos e relevantes
- R1.1. Os (meta)dados são disponibilizados com uma licença de uso clara e acessível
  - sob quais condições os dados podem ser usados
- R1.2. Os (meta)dados são associados a proveniência detalhada
  - como eles foram obtidos, versões existentes, etc.
- R1.3. Os (meta)dados atendem a padrões da comunidade relevantes ao domínio

Patricia Henning observa que os dados FAIR não são a mesma coisa que os dados abertos, já que os princípios podem ser aplicados tanto para dados que tenham restrições de acesso quanto para dados que estejam disponíveis publicamente. Ela também mostrou a definição de dados abertos da Open Definition, as 5 estrelas de Linked Open Data propostas pelo Tim Berners-Lee. e o conjunto de licenças da Creative Commons.

Enfim, ela mostrou o livro Turning FAIR into Reality (Transformando o FAIR em Realidade), publicado pela Comissão Europeia, que é um guia de como implementar os princípios FAIR. Ela também apresentou a iniciativa GOFAIR, que também está presente no Brasil e é liderada pela Luana Sales, que também visa ajudar instituições a implementar o FAIR. Ela citou a Fundação Oswaldo Cruz (Fiocruz) como um exemplo de instituição brasileira que procura usar e apoiar o FAIR em dados da saúde ao elaborar um plano de gestão de dados.

Lançamento do livro sobre dados abertos para editores científicos

Ao fim do evento, o livro “Tópicos sobre dados abertos para editores científicos” foi lançado. Houve uma mesa de discussão com Luana Sales, Michelli Costa, da Universidade de Brasília, e Sigmar de Mello, presidente da Associação Brasileira de Editores Científicos.

Sigmar de Mello, Luana Sales e Michelli Costa em uma mesa para discutir o lançamento do livro. — Da esquerda para a direita: Sigmar de Mello, Luana Sales e Michelli Costa. Imagem do Arquivo Nacional.

Luana Sales explicou que o lançamento desse livro é também um marco no 4º Plano de Ação na Parceria para Governo Aberto. Michelli Costa afirmou que não se pode esperar praticar ciência aberta sem antes explicar algumas dessas questões aos editores científicos, que é quem o livro tenta alcançar. Sigmar de Mello disse que uma pesquisa com editores científicos constatou que somente 20% deles apoiariam uma alternativa de ciência aberta em seus periódicos. Então, trabalhos de disseminação como esse são muito necessários.

Alguns exemplares do livro foram entregues a participantes por sorteio após a mesa de discussão.

O ODD 2021 no Arquivo Nacional

Este ano, mais uma vez o Arquivo Nacional organizou um evento do Open Data Day um dia adiantado, para que caísse em um dia útil – sexta-feira, dia 5 de março. Por causa da pandemia, desta vez o evento foi online.

A programação teve uma apresentação de John Sheridan, Diretor Digital do Arquivo Nacional do Reino Unido. Na sequência, uma palestra de Caroline Burle, do Centro Regional de Estudos para o Desenvolvimento da Sociedade da Informação (Ceweb.br).