Repartir e multiplicar conhecimento

Esta é uma reprodução da matéria de Rodrigo de Oliveira Andrade publicada na Pesquisa Fapesp [1] sobre Ciência Aberta.

A crise do novo coronavírus está mudando o modo como os pesquisadores se comunicam e trabalham em conjunto, dando mais velocidade e transparência à dinâmica de produção e disseminação do conhecimento. Em meio à urgência para desenvolver vacinas e medicamentos, muitos cientistas estão compartilhando de forma instantânea seus dados de pesquisa, aquela massa de informações primárias que serve de base para as conclusões de seus estudos. Esse comportamento se enquadra em uma mobilização envolvendo governos, empresas, organizações internacionais, agências de financiamento e comunidade científica, que, para enfrentar a pandemia, passaram a promover práticas alinhadas à ciência aberta, conceito que envolve o acesso livre à informação e a construção colaborativa do conhecimento. Em maio, por exemplo, a Organização para a Cooperação e Desenvolvimento Econômico (OCDE) reforçou em um comunicado a relevância dessa estratégia no combate à Covid-19: “Em emergências globais como a pandemia do novo coronavírus, a implementação de políticas de ciência aberta remove obstáculos ao fluxo de dados e ideias de pesquisa, acelerando o ritmo de desenvolvimento do conhecimento para combater a doença”.

Diversas iniciativas emergiram para promover a troca de informações científicas sobre o novo coronavírus. Uma delas é a Nextstrain, banco de análises de sequências genéticas do Sars-‑CoV-2 criado por pesquisadores da Universidade da Basileia, na Suíça, e do Centro de Pesquisas do Câncer Fred Hutchinson, em Seattle, nos Estados Unidos. Por meio dele, é possível mapear padrões de dispersão do vírus analisando informações sobre mutações em seu material genético vindas de múltiplas fontes. “Os pesquisadores podem compartilhar dados dessas análises, compará-los e identificar como e em quais regiões do mundo o novo coronavírus está sofrendo mutações”, explicou Trevor Bedford, um dos criadores da plataforma. O projeto já revelou conexões entre linhagens do vírus registradas na Austrália com casos de Covid-19 no Irã, além de um paciente em Taiwan infectado com uma variedade oriunda dos Países Baixos. Também verificou que a linhagem do Sars-CoV-2 que se espalhou na Itália é a mesma que chegou na América Latina e na África, enquanto a Ásia já recebeu de volta variedades que havia exportado para a Europa.

Nextstrain oferece acesso a 1.787 análises genômicas de variedades do Sars-Cov-2em circulação na América do Sul

A plataforma, na avaliação de Bedford, poderia ter sido útil em epidemias como a da febre zika, entre abril de 2015 e novembro de 2016. “A área mais afetada pelo vírus foi a do Nordeste do Brasil. Caso tivéssemos uma ferramenta capaz de mapear em tempo real como e em que velocidade o vírus zika se espalhava pelo mundo, talvez pudéssemos antecipar que aquela região seria a mais vulnerável. Isso daria a chance de limitar a propagação da doença.”

A urgência por dados sobre o novo coronavírus também levou a Comissão Europeia a lançar em abril, em colaboração com outros parceiros, a Covid-19 Data Portal. A plataforma permite que pesquisadores compartilhem, acessem e analisem diferentes tipos de dados sobre o novo coronavírus, como proteínas e genes específicos do agente patológico. Tais informações estão ajudando no desenvolvimento de sistemas de inteligência artificial capazes de identificar as principais áreas de concentração dos estudos sobre a Covid-19 no mundo, de modo a apontar sobreposições de esforços e abordagens promissoras que merecem ser exploradas. O portal também reúne informações hospedadas em outros repositórios da região, como a britânica Elixir, que congrega resultados de pesquisa na área de ciências da vida, mas que, recentemente, criou uma seção exclusiva para o Sars-CoV-2, incluindo informações sobre genes específicos do vírus, linhagens celulares mais adequadas para o estudo dos seus mecanismos de ação e proteínas que interagem com o patógeno.

Esse esforço de compartilhamento também reverbera no Brasil. Um exemplo é a plataforma Covid-19 Data Sharing/BR, lançada em junho. Fruto de uma articulação da FAPESP envolvendo a Universidade de São Paulo (USP), o Grupo Fleury e os hospitais Albert Einstein e Sírio-Libanês, o repositório reúne dados laboratoriais e demográficos de cerca de 180 mil indivíduos submetidos a testes para diagnóstico da Covid-19 – e que apresentaram resultados positivos ou negativos –, além de 6.500 desfechos de casos – como recuperação ou óbito – e quase 5 milhões de resultados de exames clínicos e laboratoriais. “A expectativa é que essas informações sejam usadas no aprimoramento do diagnóstico, em estudos sobre fatores relacionados à evolução da doença no Brasil e em investigações sobre candidatos a medicamentos e vacinas”, disse o neurocientista Luiz Eugênio Mello, diretor científico da FAPESP, no lançamento da iniciativa.

Plataforma Covid-19 Data Sharing/BR reúne dados laboratoriais e demográficos de quase 180 mil pessoas

O novo repositório utiliza uma estrutura computacional criada pela Superintendência de Tecnologia da Informação da USP, usada desde dezembro de 2019 para conectar os repositórios de dados de pesquisas de diferentes instituições paulistas (ver Pesquisa FAPESP nº 287). “O fato de já termos essa estrutura pronta nos ajudou a acelerar a implementação da plataforma para a Covid-19”, destacou o físico Sylvio Canuto, pró-reitor de Pesquisa da USP.

O estímulo ao compartilhamento de dados é antigo e tem várias motivações. Uma delas é a preocupação com a reprodutibilidade de pesquisas e a importância de disponibilizar as informações primárias coletadas para que outros cientistas consigam verificar a precisão e a relevância de resultados divulgados. Com a pandemia, isso ganhou um significado mais urgente. “Ela pode otimizar os esforços de pesquisa e catalisar novas colaborações, acelerando o ritmo de descobertas”, explica a engenheira eletricista Claudia Bauzer Medeiros, do Instituto de Computação da Universidade Estadual de Campinas (Unicamp) e membro da coordenação dos programas eScience e Data Science da FAPESP. “Também permite que os pesquisadores desenvolvam estudos combinando dados de origens diversas.”

Medeiros é conselheira da Research Data Alliance, organização criada em 2013 para disseminar o compartilhamento de dados científicos e criar infraestruturas que viabilizem essa tarefa. Em março, a pedido do Conselho Europeu, ela e outros 136 membros afiliados uniram esforços na elaboração de uma série de recomendações para acelerar a pesquisa sobre a Covid-19 (ver box).

“A pandemia pôs em evidência a relevância de promover um intercâmbio de resultados científicos de forma rápida e aberta”, disse a Pesquisa FAPESP o bioquímico britânico Richard Sever, um dos fundadores do bioRxiv, repositório de preprints que reúne artigos de ciências biológicas. “Essa prática tem sido benéfica e contribuído para o avanço do conhecimento sobre o vírus.” A comparação com situações do passado ajuda a mostrar a importância do esforço atual. “O sequenciamento completo do genoma do Sars-CoV-1, que causou um surto na Ásia entre 2002 e 2003, levou praticamente cinco meses para ser concluído”, diz o engenheiro elétrico Daniel Villela, pesquisador do Programa de Computação Científica da Fundação Oswaldo Cruz (Fiocruz). “Já agora, o fluxo de informações sobre a Covid-19, poucos dias após a coleta de amostras dos primeiros indivíduos infectados, permitiu o sequenciamento completo do genoma do Sars-CoV-2 em apenas um mês.”

Mais de 2.800 ensaios clínicos de tratamento para a Covid-19 estão disponíveis na Cochrane COVID-19 Study Register

Apesar dos avanços durante a pandemia, alguns obstáculos permanecem. A consolidação de um ambiente propício para o fluxo de informações pressupõe não apenas a disposição dos pesquisadores de dividir seus dados, mas também o comprometimento dos governos em coletar e oferecer informações de forma transparente. Desde abril, a Open Knowledge Brasil, organização sem fins lucrativos que promove a transparência de informações públicas, avalia a disponibilidade e a qualidade de dados epidemiológicos e de infraestrutura de saúde relacionados à Covid-19 fornecidos pelos governos federal, estaduais e municipais. O chamado Índice da Transparência da Covid-19 nos estados e na União é atualizado a cada 15 dias e leva em conta três aspectos de avaliação das informações divulgadas: conteúdo, formato e granularidade, isto é, o grau de detalhamento dos dados divulgados. “Verificamos que apenas cinco estados divulgam bases de dados detalhadas, incluindo notificações de casos suspeitos, por exemplo”, esclarece Fernanda Campagnucci, diretora-executiva da Open Knowledge Brasil. “Por parte do governo federal, há falta de articulação na divulgação de informações detalhadas e padronizadas sobre a pandemia. Essas informações são essenciais para estimar a dinâmica de propagação do vírus.”

Apesar dos esforços globais, muitos pesquisadores ainda resistem em incorporar a prática colaborativa em sua rotina de trabalho. Alguns têm preocupação quanto à possível má interpretação ou ao uso incorreto das informações originais. Também há os que evitam fornecer seus dados porque querem explorá-los em novos estudos ou temem não receber os créditos pela cessão. Daí a preocupação de que o compartilhamento arrefeça após a pandemia.

Para a cientista de dados brasileira Renata Curty, que atua na gestão e curadoria de dados de pesquisa na Universidade da Califórnia em Santa Bárbara, nos Estados Unidos, as agências de fomento podem ajudar a moldar novos comportamentos em relação ao compartilhamento de dados entre os pesquisadores. Desde outubro de 2017, a FAPESP, a exemplo de instituições de financiamento da Austrália, dos Estados Unidos e da Europa, exige que as solicitações de financiamento de projetos venham acompanhadas de um plano de gestão de dados, desde a coleta até onde eles serão disponibilizados. “No entanto”, diz Curty, “é preciso investir em parâmetros de avaliação desses planos e em sistemas que verifiquem se de fato os dados foram compartilhados e avaliem a qualidade desse material”. Uma preocupação é garantir que essas informações venham acompanhadas dos chamados metadados, que oferecem uma descrição detalhada dos dados gerados em determinado estudo, especificando como foram produzidos, quem os gerou, quando, onde e como podem ser reutilizados, de modo a possibilitar sua devida interpretação e ampliar o potencial de reúso em novas pesquisas.

Na avaliação de Claudia Bauzer Medeiros, para que a cultura do compartilhamento se fortaleça na pós-pandemia é preciso avançar na implementação de mecanismos de recompensa para quem adota essa prática. Uma das estratégias seria a criação de indicadores de citação das informações partilhadas. “Da mesma forma, é importante que essas métricas sejam levadas em consideração pelos sistemas de avaliação, de modo a reconhecer e valorizar o esforço dos pesquisadores que fornecem seus dados.” O ambiente com acesso livre à informação e construção colaborativa do conhecimento também depende de financiamento sistemático. “Entre 20% e 30% das iniciativas envolvendo o compartilhamento de dados primários são descontinuadas após dois ou três anos por falta de recursos”, destaca.

Um guia para o compartilhamento de dados A Research Data Alliance (RDA) divulgou em fins de junho um documento com diretrizes detalhadas para estimular o compartilhamento e a reutilização de dados no contexto da pandemia e em situações de emergência futuras. Elas abordam o uso de resultados de estudos clínicos, epidemiológicos, sociológicos e ômicos – isto é, pesquisas nas áreas de genômica, transcriptômica, proteômica e metabolômica– e o desenvolvimento de estratégias que favoreçam a troca dessas informações.

O relatório é fruto de trabalho colaborativo envolvendo pesquisadores de diversos países, entre eles Claudia Bauzer Medeiros, do Instituto de Computação da Unicamp. “Em meados de março, a pedido da Comissão Europeia, a RDA convocou seus mais de 10 mil afiliados para elaborar orientações que pudessem auxiliar as várias estratégias de compartilhamento”, conta Medeiros. Desses, 130 engajaram-se no projeto, dividindo-se em grupos de redação. “Reuníamo-nos de duas a três vezes por semana, via internet, para discutir e redigir de forma colaborativa o documento final.”

O relatório propõe que governos, agência de fomento à pesquisa e instituições científicas do mundo trabalhem juntos para desenvolver políticas e promover investimentos para otimizar o fluxo de dados entre entidades locais e internacionais. “O documento chama a atenção para a necessidade de os dados, softwares, modelos compartilhados sejam encontráveis, acessíveis, interoperáveis e reutilizáveis”, explica Medeiros. “Isso exige dos pesquisadores um plano de gestão bem detalhado, com informações sobre como os dados foram gerados e como podem ser reutilizados.”

== REFERÊNCIA ==

ANDRADE, R.O. Repartir e multiplicar conhecimento: compartilhamento de dados de pesquisa cresce na pandemia e os benefícios da estratégia podem ajudar a consolidá-la. Pesquisa Fapesp, 30 julho 2020. Disponível em: https://revistapesquisa.fapesp.br/repartir-e-multiplicar-conhecimento/ Acesso em: 04 ago. 2020.