No mundo atual, a percepção das dificuldades não pode mais se dissociar do remanejamento dos quadros funcionais.
Pensando mais a longo prazo, a percepção das dificuldades possibilita uma melhor visão global dos métodos utilizados na avaliação de resultados.

pensamento do dia

Assim mesmo, a complexidade dos estudos efetuados ainda não demonstrou convincentemente que vai participar na mudança dos métodos utilizados na avaliação de resultados.

Desafios e oportunidades da 4ª onda de dados abertos

Spread the love

Nos últimos anos, as discussões sobre uso de dados abertos e proteção de dados têm ganhado novos contornos. Ao redor do mundo e no Brasil, para além da abertura dos dados e solidificação de políticas de transparência por alguns setores de governos (questão ainda não totalmente superada), continua-se a discutir a compatibilidade de políticas de abertura com normas e modelos de governança de proteção de dados. Com a popularização dos modelos de inteligência artificial, há incremento desses desafios e também de potenciais oportunidades.

Em 2020 (Verhulst et al., 2020), houve publicação de artigo que propôs uma organização teórica de tendências relacionadas à abertura de dados ao longo do tempo a partir de ondas. Afirmou-se que o mundo teria vivido três ondas de abertura de dados e, naquele momento, encontravam-se em meio à terceira.

Assine gratuitamente a newsletter Últimas Notícias do JOTA e receba as principais notícias jurídicas e políticas do dia no seu email

Importante destacar que por mais que novas ondas cheguem, pode ser que determinados setores ainda vivam problemas relacionados às ondas anteriores, ou seja, o fato de haver uma nova onda não significa que houve esgotamento dos desafios passados.

Resumidamente, a primeira onda foi marcada pela conscientização da importância da liberdade informacional e da existência de dados abertos (independente do nível de abertura); na segunda, houve foco em governos abertos e sua importância para regimes democráticos; na terceira, falou-se bastante sobre formas e possibilidades de reúso de dados, além da importância de dados de certas organizações também estarem disponíveis para alguns públicos e da formação de parcerias entre sociedade civil, entes públicos e privados.

Em outras palavras, parte da discussão da terceira onda estaria relacionada à construção e adoção de modelos de governança que permitam certos tipos de reúso de dados.

Em 2024, outro artigo (Hannah et al, 2024) indicou que modelos de inteligência artificial, especialmente grandes modelos de linguagem (large language models – LLMs) poderiam inaugurar uma “quarta onda” de dados abertos.

De pronto, já podemos imaginar que isso traz mais camadas de complexidade à discussão, visto que há ainda vários pontos em aberto referentes a outras ondas. Dentre algumas possibilidades, discute-se se o uso de certos dados abertos para treino seriam benéficos para modelos, visto que são dados mais confiáveis e não haveria tantos dados imprecisos às vezes referidos como “lixo” por alguns profissionais.

Isso economizaria recursos (inclusive o gasto energético, que é um dos principais pontos de atenção relativos ao desenvolvimento de modelos de linguagem de IA, mesmo com o surgimento de novos modelos que, em tese, exigem um poder computacional menor) e poderia diminuir a possibilidade de alucinações em certos casos. Ainda, modelos de IAs poderiam contribuir para análises e insights a partir de dados abertos de maneira mais rápida.

Nesse contexto, faz-se necessário relembrar que a expressão “dados abertos” é utilizada para se referir a dados (pessoais ou não) acessíveis ao público geral. As discussões sobre dados abertos foram fundamentais para construir o conceito de “governo aberto”, no qual há incentivos para a abertura e transparência de dados estratégicos e de interesse público, principalmente dos governos (Sabo et al. 2020).

A utilização desses dados permite que haja uma prestação de contas mais eficiente, além do aumento da accountability das instituições. Como pontua Daniel Solove, desde meados do século 20, vê-se desenvolvimento considerável de dados públicos, tanto na diversidade de tais dados como também na forma de sua disponibilização à população (Solove et al.2002)

Quando falamos de “dados públicos”, o termo pode vir acompanhado de uma premissa equivocada de que não haveria implicações de privacidade sobre tais dados, já que são “públicos”. O que não é o caso. A grande questão é que a privacidade não necessariamente é violada quando se divulga determinado dado. Ela é violada quando há a divulgação de determinado dado de forma inapropriada, com descumprimento do que chamado “fluxo informacional”.

Neste ponto é importante trazermos o conceito de “integridade contextual”, que consiste em assegurar com que a informação flua de maneira apropriada, respeitando-se o “contexto” em que sua divulgação é feita, as expectativas legítimas de divulgação de determinada informação pelo titular da mesma e até mesmo normas locais. Ao juntarmos os desafios ainda vividos das ondas anteriores com LLMs e a popularização da inteligência artificial, o conceito de integridade contextual ganha contornos ainda maiores.

Em um mundo ideal da acessibilidade e de dados abertos, não basta que os dados estejam acessíveis, é preciso que eles possam ser lidos e interpretados mais facilmente por máquinas. Por exemplo, um PDF, apesar de ser um documento eletrônico, é um formato que necessita grande esforço para ser convertido e lido por máquina, de forma que há mais dificuldade de acesso em informações contidas em PDFs em comparação com outros formatos.

Embora seja legítima uma preocupação com a compatibilidade entre transparência e proteção de dados, é importante ressaltar que a melhoria no formato de disponibilização das informações não significa que os dados podem ser utilizados por terceiros de qualquer maneira, tampouco pode ser motivo para impedir o exercício de direitos.

Bioni et al (2022) descreve esse conflito aparente no Brasil e traz casos em que foram negados pedidos legítimos de acesso a dados de interesse público, com um suposto fundamento na Lei Geral de Proteção de Dados (Lei 13.709/2018), prejudicando, ao fim, o exercício do direito de acesso à informação.

Em suma, a chegada da quarta onda traz suas próprias questões relacionadas à governança e também proteção de dados, visto que, como já mencionado, ainda há discussões muito vivas e pertinentes da terceira onda, inclusive aquela relativa à “licença social”, ou seja, em quais situações seria legítimo o reúso dos dados. E o “reúso dos dados” quando falamos de LLMs ganha uma nova dimensão.

Ainda, é preciso considerar que os modelos de IA sozinhos não vão resolver todos os problemas ou avançar a discussão de maneira automática. Nesse novo cenário, o controle de qualidade dos dados, assim como o zelo pelo atendimento aos direitos de privacidade dos titulares de dados, se faz ainda mais necessário para a construção de soluções mais assertivas e responsáveis.

A própria LGPD traz algumas pistas e elementos importantes para a governança de dados pessoais, e oferece alguns elementos para entendermos quais tipos de dados teriam uma licença social mais forte para reúso e de quais tipos de reúso estaríamos falando.

Em primeiro lugar, a LGPD se aplica aos dados abertos que também são dados pessoais (o que nem sempre é a mesma coisa). Consideramos que as principais orientações em relação a esses dados abertos, em sentido bem amplo, estão contidas no art. 7º, §§s 3º e 4º.

No §3º, temos dados pessoais cujo acesso é público, e o §4º refere-se a dados que são tornados manifestamente públicos pelos seus titulares. No caso dos dados descritos no §3º, consideramos que são dados públicos propriamente ditos, ou seja, aqueles geralmente disponibilizados por instituições públicas. Tanto é que o próprio §3º já indica que, antes de qualquer análise, deve-se considerar para tratamento a finalidade, a boa-fé e o interesse público que justificaram sua disponibilização original.

Já os dados pessoais do §4º são geralmente dados que o próprio titular disponibiliza, podendo ser considerado dado pessoal de rede social aberta, por exemplo. Ao nosso ver, são exemplos de como a LGPD tenta endereçar o conceito de integridade contextual quando do tratamento de dados públicos.

No § 7º, a lei determina que esses dois tipos de dados poderão ter tratamento posterior para novas finalidades (em outras palavras, reúso) desde que sejam observados propósitos legítimos e específicos para o novo tratamento, preservação dos direitos dos titulares e os demais princípios e fundamentos colocados pela lei. Isso garante que os dados pessoais a que se referem os §§ 3º e 4º poderão ser tratados para novas finalidades, desde que observados os requisitos previstos pela LGPD.

No Brasil, portanto, a Lei Geral de Proteção de Dados tenta oferecer um framework e condições para reúso dos dados, tal qual ocorreu em outros lugares que viveram momentos de terceira onda de dados abertos. Dessa forma, muito da “licença social” do uso desses dados, quando tratam-se de dados pessoais, está atrelada também a uma análise de compatibilidade das condições trazidas pela LGPD e por outras legislações pertinentes. Vemos aqui também uma relevante preocupação da LGPD com a privacidade dos dados públicos.

Apesar de ambos terem condições parecidas de tratamento similares, a nossa hipótese é de que é mais claro o interesse público dos dados disponibilizados por instituições públicas, do caso dos dados pessoais descritos no §3º. Isso porque, além da LGPD, há diversas leis que determinam a transparência e interesse público de dados referentes à administração pública. Havendo controles e boa governança, é mais difícil perder o contexto no qual os dados foram disponibilizados.

No caso dos dados disponibilizados pelo titular, nem sempre é claro ou menos ambíguo qual foi o interesse público relativo àqueles dados, além dos propósitos legítimos. Em relação aos dados abertos, por sua vez, o conceito de legítimo está mais atrelado à cumprir com a lei, e não uma legitimidade mais abstrata e subjetiva.

Quando consideramos a aproximação da quarta onda e da inteligência artificial, conforme já tratamos anteriormente, os dados públicos do §3º têm mais chances de estarem “corretos” e precisos, o que já é uma vantagem e uma segurança para a realização de algumas operações. Além disso, ao observarmos o framework regulatório, nota-se mais segurança jurídica em relação ao uso de tais dados – no Brasil, tanto na LGPD quanto nas demais normas que organizam a abertura de dados no país, como a Lei de Acesso à Informação (Lei 12.527/2011) –, embora o tema ainda gere divergências.

Por isso, é fundamental acompanhar de perto essa discussão e seu desenvolvimento. As reflexões ligadas à legitimidade da “licença social” para o uso de certos dados também se aplicam aos reúsos relacionados à IA e, não devendo se limitar aos aspectos jurídicos, vai continuar a exigir a adoção de certas salvaguardas, inclusive em relação a questões éticas. A IA tem o potencial de encurtar certos processos que dependiam muito do esforço humano repetitivo e monótono, mas não significa que vai conseguir fazer tudo sozinha.

Por último, entendemos que a comunidade de privacidade de dados terá um papel fundamental em potencializar o uso e desenvolvimento sustentável da IA, utilizando-se do framework trazido pela LGPD e demais normas para garantir com que a privacidade dos titulares dos dados não seja infringida, inclusive no caso de dados públicos.

Da mesma forma, vemos espaço para um período de aprendizado e adequação por parte dos titulares dos dados: o que se considerava como legítima expectativa sobre a divulgação de determinado dado em 2010, já não se considera mais. No universo de dados processuais, por exemplo, vemos o acesso à informação processual cada vez mais democrático, seja em virtude de iniciativas do próprio Conselho Nacional de Justiça (criação do Datajud, por exemplo) ou até mesmo do ecossistema de legaltechs brasileiras.


https://jolt.law.harvard.edu/articles/pdf/v31/31HarvJLTech111.pdf

HANNAH, C.; SAMPRITI, S.; STEFAAN, G. V. A Fourth Wave of Open Data? Exploring the Spectrum of scenarios for Open Data and generative AI. 2024. Disponível em: <http://arxiv.org/abs/2405.04333>.

Verhulst, Stefaan and Young, Andrew and Zahuranec, Andrew and Calderon, Ania and Gee, Matt and Aaronson, Susan, The Emergence of a Third Wave of Open Data: How To Accelerate the Re-Use of Data for Public Interest Purposes While Ensuring Data Rights and Community Flourishing (October 28, 2020). Available at SSRN: https://ssrn.com/abstract=3937638 or http://dx.doi.org/10.2139/ssrn.3937638

Bioni – https://revista.cgu.gov.br/Cadernos_CGU/article/view/504

SABO, I. C. et al. Entraves ao governo aberto na Justiça Federal brasileira. Revista Direito GV, v. 16, n. 1, p. E1950, 2020

MAIER-RABLER, Ursula; HUBER, Stefan. “Open”: The Changing Relation Between Citizens, Public Administration, and Political Authority. JeDEM – eJournal of eDemocracy and Open Government, v. 3, n. 2, p. 182-191, 2012.

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *