Guia para gestão e divulgação de dados de pesquisa 2024

Com direção de publicação do Ministério Francês de Ensino Superior e Pesquisa, coordenação editorial da Universidade de Lille e apoio do Conselho científico: The Skills and Training College of The Committee for Open Science, acaba de ser publicado o e-book Open Science Research Data (Février 2024). Esta é uma tradução livre do texto.

Derivado do Passport for Open Science, um guia concebido para acompanhar os estudantes de doutoramento em todas as etapas da sua carreira de pesquisa, qualquer que seja a sua área disciplinar, o presente guia Open Science Research Data (Février 2024) fornece um conjunto de ferramentas e boas práticas que podem ser implementadas diretamente, bem como aborda os principais conceitos envolvidos na gestão e divulgação de dados de pesquisa.

Como parte da coleção Passaporte Francês para a Ciência Aberta, este guia cobre os principais conceitos envolvidos na gestão e divulgação de dados de pesquisa. Uma contribuição da organização Ouvrir la science.

Destina-se a pesquisadores como você, seja qual for a sua disciplina! À medida que você lê, você encontrará explicações sobre o que são os dados de pesquisa, as questões envolvidas em gerenciá-los com sabedoria e os benefícios de compartilhá-los, bem como a melhor forma de receber suporte para gerenciá-los e compartilhá-los.

Tudo que você precisa saber sobre dados de pesquisa

Existem muitas definições, mas a mais comumente usado é a da Organização para Cooperação Econômica e Desenvolvimento (OCDE), que define dados de pesquisa como: “registros factuais (pontuações numéricas, registros textuais, imagens e sons) usados ​​como fontes primárias para pesquisa científica, e que são comumente aceito na comunidade científica conforme necessário para validar a pesquisa descobertas”.

VALE A PENA SABER O código-fonte e o software não devem ser considerados como dados. Eles vêm com especificações desafios, práticas e recomendações quando se trata de compartilhamento e abertura. Consulte o livreto intitulado ▼Código-fonte e software.

Os dados da pesquisa podem ser caracterizado com base no seguinte:

  • Como foram obtidos: dados produzidos como parte de experimentos ou análises utilizando instrumentos, observação dados, dados coletados durante uma pesquisa ou amostragem de campo, etc. Você também pode produzir seus próprios dados ou reutilize dados produzido em outro lugar.
  • Tipo: textual, audiovisual, digital, de imagem, de observação, de genômica sequenciamento, etc. produzido usando determinada medição, análise ou instrumentos de observação
  • Formato: dados em formato aberto ou proprietário formatar.
  • Contexto de produção: industrial parceria, laboratório em zona de acesso restrito, etc.
  • Regime jurídico: dados pessoais (Regulamento Geral de Proteção de Dados), abrangido por sigilo (por exemplo, profissional, defesa ou industrial), sujeito a um acordo de confidencialidade, obrigações contratuais (contrato que rege o acesso), etc.
  • Natureza crítica: sensível, confidencial, etc.

Principais etapas para tornar os dados da pesquisa abertos

Ao longo de um projeto de pesquisa, os dados são coletados, gerados ou reutilizados e depois armazenados para que possam ser processados e analisados. Eles serão então estruturados, limpos e classificados de modo que apenas os dados relevantes para divulgação ou publicação sejam mantidas sempre que possível em um repositório de dados.

Além disso, alguns dados, especialmente observações feitas ao longo do tempo, também são arquivados para armazenamento de longo prazo.

Essas diferentes etapas pontuam o projeto de pesquisa e inventam o que é chamado de ciclo de vida dos dados. O gerenciamento de dados deve torná-los localizáveis, acessíveis, compreensíveis para humanos e máquinas, ou seja, interoperáveis e reutilizáveis.

Isso é o que conhecemos como princípios FAIR. Eles cobrem as diferentes maneiras pelas quais os dados de pesquisa são construídos, armazenados, apresentados, compartilhados e reutilizados.

O desafio que sustenta a A FAIRificação dos dados de pesquisa visa, em última análise, garantir que eles possam ser reutilizados pela equipe que os produziu, bem como por outros e diretamente por máquinas para alimentar futuras pesquisas, meta-análises e modelos em grande escala (clima, biodiversidade, pandemias, aprendizado de máquina, etc.).

A importância dos Metadados

Todas essas noções são usadas para descrever dados e inventar o que chamar metadados.

Metadados científicos fornecem informações sobre os dados, em particular: protocolo e contexto em que foram obtidos, referências de tempo, configurações dos instrumentos utilizados, ferramentas e software de análise, etc. , usando o vocabulário controlado do campo de pesquisa.

Metadados documentais fornecem informações mais específicas informações sobre coisas como instituição e as pessoas que produziram os dados, condições de uso e acesso, identificador persistente de conjunto de dados, o identificador das publicações e o código do software vinculado aos dados, etc.

POR QUE DIVULGAR DADOS?

Compartilhar e abrir dados de pesquisa facilita sua reutilização por você e outros, sejam membros da equipe de seu projeto ou equipe de pesquisa, ou o comunidade científica como um todo.

Divulgar seus dados ajuda a aumentar a visibilidade do seu trabalho e permite que você seja mais citado. Segundo estudo publicado na revista PLOS ONEs, artigos científicos com dados abertos foram citados 25% a mais.

A divulgação de dados de pesquisa contribui para a transparência do abordagem científica e aumenta o nível de confiança na ciência entre os cidadãos.

Também contribui para a reprodutibilidade da ciência, esclarece a forma como os dados foram produzidos, analisados ​​e processados e constitui, assim, um forte marcador de integridade científica e ética.

Também vale a pena divulgar dados que não levaram a uma publicação ou resolução de uma hipótese científica inicial. Tais dados podem ser úteis para outros pesquisadores na exploração de novas hipóteses, na condução de novas pesquisas, inclusive em outros campos ou destacando resultados negativos.

VALE A PENA SABER

O setor digital está desfrutando de um forte crescimento. Esse setor é um consumidor de recursos abióticos responsável por múltiplas formas de poluição e, através do seu impacto no ambiente e na sociedade, exacerba a pressão exercida sobre os limites do nosso planeta.

Os dados de pesquisa digital fazem parte deste crescimento e, para evitar o aumento da sua pegada ambiental dos produtos e serviços digitais, é essencial:

1) permitir a reutilização (princípios FAIR) de dados existentes antes de tentar produzir novos dados, e

2) documentar com o máximo de detalhes e clareza possíveis o uso e o impacto dos seus dados. Para alinhar a ciência aberta com os objetivos ambientais, é crucial tornar os seus dados encontráveis ​​e acessíveis, mas também para destruir quaisquer dados que não serão mais úteis porque não foram descrito adequadamente.

Estas práticas são recomendadas quando se trata de compartilhamento e destruição de dados redundantes e são uma forma de reduzir a pegada digital dos dados.

A coleta e análise de dados são fases muito dispendiosas.

Dados que nem são compartilhados nem disseminados são, portanto, uma perda para a equipe de pesquisa. O relatório da Comissão Europeia, Custo de não ter dados de pesquisa FAIR lançado em 2019, estima o custo da má gestão de dados de pesquisa em 3 mil milhões de euros para França, devido ao tempo perdido, custos de armazenamento não otimizados, custos de licença e problemas de duplicação de pesquisa.

Alguns dados de pesquisa são únicos. Esse é a verdade para dados de longo prazo que monitoram parâmetros ambientais, por exemplo. Esses dados estão em arquivos públicos, de acordo com a Lei do Patrimônio (Código du Patrimoine em francês) e, portanto, fazem parte do nosso sistema científico, nossa herança nacional. Usando descrições precisas, compartilhando e garantindo o abertura dos dados observacionais de campo, é possível constituir séries temporais e realizar análises ao longo várias décadas, por exemplo para avaliar o impacto das alterações climáticas.

A divulgação de dados está incluída nas recomendações no âmbito do Plano Nacional Francês. É também uma forma de respeitar tanto as obrigações de legislação e as demandas dos financiadores bem como certos periódicos.

COMO DIVULGAR DADOS?

Preparando-se para a divulgação de dados.

Planeje seu gerenciamento de dados. A divulgação de dados deve ser preparada no início do projeto de pesquisa. Para conseguir isso, um plano de gerenciamento de dados, ou DMP, é uma ferramenta que irá permitir que você descreva como os dados serão gerenciados, armazenados, analisados e preservados, antecipando a forma como serão abertos, o que está sujeito às disposições legais e estruturas contratuais etc. relevantes para os dados do projeto.

O DMP evolui ao longo do tempo e deve ser adaptado a cada fase do projeto de pesquisa. O DMP vem na forma de um documento dividido em seções baseadas em um modelo frequentemente recomendado ou mesmo em seções impostas pelo órgão fiscalizador ou agência financiadora. Você encontrará modelos em ▼DMP Tool.

Seu objetivo é fornecer uma visão geral da descrição e evolução dos conjuntos de dados no projeto de pesquisa. Ele descreve os dados e como eles são gerenciados durante o projeto e define os procedimentos para sua disseminação, reutilização e preservação. É ainda mais importante mantê-lo atualizado, pois é um documento de orientação de gerenciamento de dados durante todo o projeto e além.

Os vários modelos DMP recomendam seguir os princípios FAIR e são geralmente estruturados em torno deles. Isso permite antecipar onde e como seus dados serão divulgados e sob quais condições.

A USP tornou-se instituição filiada à dmptool.org, uma organização que disponibiliza a ferramenta DMPTool  ▼https://dmptool.org/ para elaborar Planos de Gestão de Dados (PGD) de forma rápida e prática. A STI configurou esta ferramenta para que pesquisadores da USP possam responder (em Língua Portuguesa ou Inglesa) perguntas cujas respostas compõem um PGD.

Protocolos para o divulgação de dados pessoais

Dados contendo informações pessoais podem ser tornados públicos depois de terem sido processado usando codificação, anonimização ou pseudonimização, dependendo sobre o nível de confidencialidade e o natureza dos dados tratados. O nível de confidencialidade deve ser determinado em colaboração com sua organização e os objetivos do seu projeto de pesquisa.

• O anonimato torna isso definitivo impossível identificar a pessoa. ▼Amnésia é uma ferramenta que permitirá que você anonimizar seus conjuntos de dados.

• A pseudonimização impede outras pessoas de identificar um indivíduo sem usando dados de terceiros. Ao contrário da anonimização, a pseudonimização é reversível. Envolve a substituição de identificadores (sobrenome, nome, etc.) por identificadores indiretos (alias, número, etc.). Dados totalmente anonimizados não vão mais conter informações pessoais e podem, portanto, ser abertos.

QUAL É O PRÓXIMO PASSO? PREPARANDO PARA O FUTURO

Promover seus dados. Além de submeter os seus dados a um repositório, você pode optar por promove-los em um documento de dados. Este documento pode ser um artigo que descreve um conjunto de dados original, visando à sua reutilização.

Ele contém um descrição detalhada do conjunto de dados (contexto de produção, produtores, direitos associados, etc.), bem como o acesso a ele, muitas vezes na forma de um vínculo persistente com o repositório de dados.

Os artigos de dados seguem o mesmo processo editorial de revisão de artigos. Há diferentes periódicos que publicam artigos de dados. Eles podem ser multidisciplinares, disciplinares ou temáticos. O ▼CoopIST fornece pontos-chave para a compreensão sobre como estruturar o conteúdo de um dado artigo, como escolher um periódico adequado para a publicação de seus dados.

Você encontrará diferentes critérios e exemplos de revistas de dados para cada disciplina. Vinculando seus dados usando um identificador persistente, as citações tornam-se mais fáceis e estáveis, uma vez que este tipo de identificador fornece um único caminho para o conjunto de dados. Em uma publicação, os dados associados, autores e colaboradores estarão inequivocamente vinculados a longo prazo e com estabilidade graças para o identificador persistente, independentemente da forma da informação utilizada para descrevê-los nas diferentes instituições.

A ▼DataCite é uma organização sem fins lucrativos que atribui identificadores de conjunto de dados em um nível internacional. A agência francesa responsável por atribuir DOIs aos dados, DataCite França, é administrado pelo Inist-CNRS. A provisão de certos persistentes identificadores faz parte de serviços complementares, como o automatizado formatação de citações, possibilitada por identificadores de objetos digitais. O DOI é atribuído automaticamente pelo repositório no qual os dados são mantidos.

Licenças

Ao publicar dados, é altamente recomendado associá-los a um licença para definir como podem ser reutilizados e modificados. Na França, um decreto lista as licenças que as administrações podem utilizar para divulgar dados públicos. As licenças ▼Etalab proporcionam aos produtores e reutilizadores dos dados em questão a necessária segurança jurídica, autorizando sua reprodução, redistribuição, adaptação e exploração comercial ao mesmo tempo em que torna obrigatória a citação de seus proveniência.

Além da licença Etalab, nós também recomendamos adicionar o ▼Licenças Creative Commons. Isso permite que você para personalizar o grau de abertura você deseja e com a licença CC-BY, para creditar os produtores dos conjuntos de dados. Uma lista de licenças geralmente é proposta pelo repositório de dados que será responsável pelo armazenamento e divulgação dos dados submetidos.

Questões práticas sobre Colaboradores da Equipe

Ao longo do ciclo de vida dos dados, diferentes as pessoas contribuem para a sua abertura: o pesquisador que considera quais dados para abrir ao redigir o manejo do plano de dados, os profissionais que apoiam o processo de pesquisa e acompanham as diferentes fases da gestão dos dados, o encarregado da proteção de dados que aconselha o pesquisador sobre as condições em que os dados pessoais podem ser abertos, o supervisor científico do projeto que envia os dados para um repositório para que possam ser reutilizados, e finalmente, os editores de documentos de dados. Para reconhecer adequadamente esses vários colaboradores ao divulgar seu resultados, você pode consultar ▼CRedit, uma taxonomia que identifica até 14 funções diferentes dentro de um projeto de pesquisa.

Escolhendo um repositório de dados

Escolher seu repositório de dados é crucial porque nem todos são igualmente compatíveis com os princípios FAIR. Para que os dados sejam facilmente acessíveis, eles devem ser disponibilizados em um repositório. Para que os dados sejam Localizáveis, eles também devem ser referenciados em catálogos ou em plataformas usando um identificador persistente. Ao publicar um conjunto de dados, o repositório atribuirá a ele um único identificador persistente. Quanto mais dados forem descritos usando recursos ricos e metadados detalhados (título, produtores, data, resumo, formato, identificador persistente, condições de acesso e utilização, metadados geográficos e temporais, etc.), melhor eles serão indexados e, portanto, serão mais fáceis de encontrar.

Para atender aos objetivos de qualidade dos dados, alguns repositórios moderam os dados antes que eles sejam publicados e sugerem ao depositante formas de melhorar a descrição dos seus conjuntos de dados com base em critérios claramente definidos estabelecidos em um guia de curadoria.

Para maior visibilidade, compartilhamento e reutilização dos dados produzidos ou coletados como parte dos projetos científicos, há uma oferta diversificada de repositórios de dados: temáticos ou disciplinares, focados na confiança ou certificação, institucional ou soberana, generalista, etc

As plataformas ▼re3data.org e ▼FAIRsharing.org permitem verificar diversos repositórios. Para identificar aquele que melhor se adapta a você, é útil saber mais sobre cada um modelo de negócios, funções e características, para certificar-se de que atenderá às suas necessidades científicas, documentais e técnicas (área disciplinar, tipo de dados aceitos, volume limitado).

Science Europe através do guia ▼ Critérios para a seleção de Repositórios confiáveis, nos diz que um repositório confiável deve satisfazer quatro critérios:

• atribuir sistematicamente uma persistente identificador para dados e/ou conjuntos de dados,

• sugerir dados padronizados e abertos estrutura de descrição,

• estabelecer as condições de acesso e o quadro para a reutilização através do concessão de licenças,

• garantir um certo nível de preservação e acessibilidade a longo prazo para tanto os dados quanto os metadados por meio do implementação de uma política específica e governação.

Existem outras perguntas que você deve fazer ao escolher um repositório confiável:

• Existe um repositório usado por pares em sua área de pesquisa?

• O repositório atende aos requisitos nacionais objetivos da política de ciência aberta e satisfaz as diretrizes estabelecidas na FAIR princípios?

• Será atribuído um identificador persistente para seus dados?

• Por quanto tempo os dados serão armazenados?

• Que tipo de moderação utiliza?

• Oferece a possibilidade de um embargo?

• É recomendado pelo financiamento agências?

• O repositório é certificado?

ATENÇÃO

Enviar dados para um repositório não significa que eles serão mantidos por muito tempo. Por isso é importante distinguir entre armazenar, salvar e arquivar dados.

Armazenamento significa simplesmente que os dados são mantidos digitalmente durante a duração do projeto, enquanto o objetivo de salvar dados é duplicá-los em vários dispositivos digitais. O

arquivamento é um processo que ao final do projeto permite conservar dados por muito tempo. Todos os repositórios de dados divulgam dados, mas apenas alguns deles oferecer serviços de arquivamento de dados em parceria com organizações como ▼ Quetelet-Progedo

Considerações finais

O movimento Ciência Aberta visa construir um ecossistema em que a ciência seja mais cumulativa, mais apoiada em dados, mais transparente, mais rápida e proporcione acesso universal (OUVRIR LA SCIENCE)

== REFERÊNCIA ==

Science ouverte – Données de la recherche. Février 2024. Disponível em: https://www.ouvrirlascience.fr/wp-content/uploads/2024/03/24-02-28-Donnees-EN-WEB.pdf

Publicado em Ciência Aberta, Dados abertos, Notícias Marcado com: , , , , , , , , , , , , ,