Ágora de dados

csv,conf,v7

19-20.4.2023

Local: Novotel 🏨
Avenida Corrientes, 1.334 📍
Buenos Aires, 🇦🇷

csv,conf

é um evento para a comunidade de criadores e gestores de dados
de todo o mundo. No csv,conf, nos reunimos para discutir dados abertos, e
como os dados podem ser usados para resolver problemas através de

  • código aberto,
  • jornalismo,
  • ciência,
  • governo,

e muito mais!

csv,conf

é uma conferência organizada pela comunidade que vai além dos
valores separados por vírgulas: reúne um grupo diversificado para
discutir temas como

  • compartilhamento de dados,
  • ética de dados,
  • análise de dados

entre muitos outros.

patrocinadores

a csv,conf é organizada pela comunidade, mas algumas empresas patrocinam o evento. Nesa edição:

  • Alfred P. Sloan Foundation
  • R Consortium
  • OpenNews
  • Omidyar Network
  • Lincoln Loop
  • Chan Zuckerberg Initiative
  • DataCite

edições anteriores

  • em Berlim 🇩🇪, Portland 🇺🇸 e online 🌐
  • v7 é a primeira vez no hemisfério sul 🌎
  • mascote: #commallama 🦙 (foto de 2017)
  • palestras gravadas 📼 no YouTube
    • em breve as da v7 também

“pega-lhamas”

  • “Lhama Vírgula” ou “comma llama”
  • lhamas variadas produzidas por artistas locais
  • grátis!

estrutura do evento

  • 3 salas simultâneas (A, B, C)
  • 1 sala para atividades espontâneas: “data tables” (D)
  • as keynotes
    • antes e depois do almoço
    • salas (A, B, C) ajuntadas em uma

dia 19

Opening up African Data

Tricia Govindasamy

  • atividades da Code for Africa logo da Code for Africa
  • repositório colaborativo de dados abertos openAFRICA
  • fact checking colaborativo

no mesmo horário 🕤 (9:25)

  • Virus discovery at a global scale – Humberto Debat
  • Agile Data Visualization with Dashbuilder – William Antônio Siqueira 🇧🇷 (Red Hat)

Frictionless Application (IDE para CSV)

Evgeny Karev (apresentação)

  • ferramenta gráfica para editar tabelas
  • validação de dados, editar esquemas
  • gerar Tabular Data Packages
  • visualização de dados
  • storytelling de dados com LiveMark
  • publicar no CKAN

no mesmo horário 🕙 (9:50)

  • #Menstruacción: How much does it cost to menstruate? – Laia Domenech Burin
  • Baking bread on Sundays makes me happy – Juan De Dios Santos

From garbage data to data on garbage

Daniel Carranza

  • co-fundador do DATA Uruguay
  • dónde reciclo
    • site e app para localizar pontos de reciclagem
    • no Uruguai e na Colômbia
    • usa dados abertos e software livre

no mesmo horário

  • Investigating police misconduct and migratory patterns – Rajiv Sinclair e Ayyub Ibrahim
  • Building Digital Democracy Solutions in Kenya through Data
    Tricia Govindasamy

KEYNOTE - Collective Creation of Open Science – Laura Acion

  • rede colaborativa de ciência aberta
  • comunidade R, compartilhamento de código
  • compartilhamento de datasets
  • reproducibilidade de pesquisas

KEYNOTE - How To Cultivate A Sustainable Open-Source Ecosystem (OSE) – Karthik Ram

  • análise dos ecossistemas de software livre
    • eixo: quantidade de desenvolvedores
    • eixo: quantidade de usuários
  • dinâmica entre os quadrantes
  • Software Bill of Materials – SBOM

Integrating data sources and publishing open data with FastELT & Airflow

Augusto Herrmann (apresentação)

no mesmo horário 🕝 (14:30)

  • Data Management on the Front Lines: Managing Administrative Data at the Source – Kelsey Badger
  • Nothing about us, without us: Participatory approaches to make data by the people for the people – Bastian Greshake Tzovaras

Miller: a swiss-army chainsaw for CSV and more

John Kerl

Miller is like awk, sed, cut, join, and sort for data formats such as CSV, TSV, JSON, JSON Lines, and positionally-indexed.

  • ferramenta de linha de comando para trabalhar com CSVs
  • selecionar linhas, colunas, transformar, cortar,etc.
  • encadear como se faz com pipes na CLI

Instalação

apt-get install miller

no mesmo horário 🕒 (14:55)

  • Open Data on Funding for Open Infrastructure Services – Tania L. Hernandez Ortiz (apresentação)
  • csv,conf Community Building with The Carpentries Toolkit of IDEAS – Kari L. Jordan, PhD

Land use trajectories as text data

Germán Rosati

  • informações de satélite sobre uso da terra
    • vegetação nativa, agricultura, urbana, etc.
    • série temporal
  • a sequência temporal é considerada como uma palavra
    • distância de edição de texto (Levenshtein)
    • clustering a partir da matriz de distâncias
  • identifica ocupações recentes da terra, alterações de uso

no mesmo horário 🕞 (15:20)

  • Towards a Community-Based Responsible Use of Health Data in Argentina and beyond – Sabrina Laura López
  • Criminal AI - Surveillance, Wage Theft & Forced Labor in a Time of Machine Learning – Adrienne Williams

Narrative Expansion: Decolonising Development

Florence Akara

  • trabalho educativo nas escolas da Tanzania
  • descolonização: procurar desfazer os efeitos da colonização europeia
  • educação sobre o início menstruação
    • oposição da cultura tradicional em algumas culturas
    • melhores resultados quando inclui também os meninos
    • pais têm preocupações com os custos

no mesmo horário 🕓 (16:10)

  • A map manager that promotes open standards and technological sovereignty for research in Mexico – Yosune Chamizo Alberro
  • Trust but verify: combining GPTs and CRDTs to empower researchers and deter fraudsters – Nokome Bentley

Identifying DDoS attacks on IoT devices using deep learning

Deborah Mesquita 🇧🇷

  • estudou segurança em equipamentos de IoT
  • usou um equipamento barato (30 reais) e fácil de se programar
  • tráfego legítimo misturado com ataques DoS
  • features para treino: cabeçalhos no nível de transporte (TCP e UDP)
  • conseguiu resultados satisfatórios (> 80%) com pouco esforço

no mesmo horário 🕟 (16:35)

  • What are you? Automating journal subject classification – Esha Datta
  • Lecturers Without Borders: creating opportunities for science outreach – Eugenia Covernton

recepção no Sky Bar

  • local: Jousten Hotel 📍
  • Buenos Aires vista do alto
  • networking
  • cortesia da Code for Science & Society

dia 20

Datasets Have Worldviews: Understanding Classification In Your Data

Dylan Baker

  • categorias de classificação nunca são “neutras”
  • escala Fitzpatrick de tons de pele

no mesmo horário 🕘 (9:00)

  • Open research needs open (meta)data – Gabriela Mejias e Mary Hirsch
  • Querido Diário: how an open source project is freeing official municipal records for 45 million people in Brasil (and counting!) – Fernanda Campagnucci 🇧🇷

How to find clues for your research in hundreds of datasets using Aleph

Mariel Fritz Patrick e David Gonzalez

  • ferramenta para organizar e indexar diversas fontes de dados
    • inclusive leitura ótica de documentos PDF!
  • reconhecimento de entidades
  • raspar sites
  • cruzamento de dados
  • jornalismo de dados e investigações de corrupção (Organized Crime and Corruption Reporting Project – OCCRP)

Veja meu texto sobre o Aleph.

no mesmo horário 🕤 (9:25)

  • Supporting data integration and usability to advance environmental and climate justice – Katie Hoeberling
  • UK government: Building better data for a better future – Darren Barnes
    • Office for National Statistics pretende publicar todos os seus dados como CSV-W

Lessons from the history of literacy

Salina Cheuk Ting Ho

  • como a alfabetização ou letramento evoluiu na história
    • ampla alfabetização é algo recente
    • leitura e escrita historicamente eram ensinadas separadamente
  • dificuldade em “vender” a ideia que as pessoas precisam aprender sobre dados

no mesmo horário 🕙 (9:50)

  • Constructing a Visual Dataset to Study the Effects of Spatial Apartheid in South Africa – Raesetje Sefala
  • Solving Childhood Dementia: When data isn't enough – Sarah Catherine Baker

OpenAQ: Wrangling the world's air quality data

Russ Biggs

  • dados coletados de estações metereológicas
    • estações custam muito caro
  • padronização dos dados
  • visualização em mapa
  • séries temporais
  • “buracos” espaciais onde não há dados

no mesmo horário (10:15)

  • A community driven initiative to crowdsource background details of 1700 High Court Judges in India – Apoorv Anand
  • The Jigsaw Puzzle of Cellular Identity – Kevin MacPherson

KEYNOTE - Giuseppe Sollazzo - Talking with data – stories and lessons from my data adventures

  • UK Open Data User Group – ODUG
  • governo do Reino Unido
  • feedback para as perguntas dos usuários de dados é importante
  • Parli-N-Grams

KEYNOTE - Alex Hanna - Shifting the Frame: The Labors of ImageNet and AI Data

pesquisadora estadunidense transgênero, especializada em ética em
inteligência artificial. Dirige o instituto de pesquisa DAIR. Doutora
em Sociologia pela Universidade Wisconsin-Madison. Utilizou ferramentas
computacionais para analisar movimentos sociais no Egito. Foi
pesquisadora sênior no Google, do qual saiu com críticas à cultura
tóxica da empresa. (Wikipédia)

  • ImageNet é o dataset anotado mais usado para visão computacional
  • classificação baseada no WordNet
  • codificação de preconceitos na categorização
  • categorizações são sempre políticas!

podcast Pizza de Dados

  • gravamos um episódio Pizza na Estrada
    • com Ana Cecília (hostess), Fernanda Campagnucci e eu
  • ainda não foi ao ar

Resources and challenges for building global equitable open science communities

Paz Bernaldo

  • programa da Open Life Science
  • formar redes de pares entre pesquisadora(e)s
  • embaixadora(e)s da ciência aberta

Tell me who you hang out with and I'll tell you who you are: a collaborative analysis using social network analysis

Yanina Noemí Bellini Saibene

  • análise de redes de pesquisadores
  • relacionamento: publicação conjunta
  • conectividade de grafos:
    • grau do nó
    • clusters, etc.
  • achar os nós “centrais” de cada rede

Procurement data: where to find it and how to use it

Félix Pedro Penna

O que foi bom

  • palestras de altíssimo nível 💯
  • conhecer pessoalmente quem só via no virtual

O que foi ruim

  • que acabou! 😢

Vídeos

Em breve estarão disponíveis no canal no YouTube da csv,conf.

  • 👉 lembrar de assistir! 👀

Créditos

  • fotos do evento compartilhadas pelos participantes, em especial Yani Bellini
  • foto da #commallama: divulgação csv,conf 2017
  • foto do pega-lhamas: Fernanda Campagnucci
  • logo do fastETL por Moisés Lima
  • foto por Alex Lvrs on Unsplash
  • imagens de tela do Dónde Reciclo e Miller
  • mapa no site da Open Contracting Partnership
  • apresentação feita em Markdown usando Marp por Yuki Hattori