SIBiUSP 2016
…a biblioteca de pesquisa é a custodiante natural dos registros acadêmicos,
e este papel se estende agora para incluir os dados de pesquisa.
(SAYÃO; SALES, 2015, p. 6)
Mas, afinal, o que são dados de pesquisa? Dados de pesquisa são os materiais comumente registrados e aceitos na comunidade científica como necessários para validar os resultados de pesquisa e incluem: fatos e estatísticas recolhidas para posterior referência ou análise, documentos (texto, Word), planilhas (Excel, etc), cadernos de laboratório, cadernos de campo, diários, questionários, transcrições, fitas de áudio, fitas de vídeo, fotografias, filmes, sequências de proteínas ou genéticos, respostas de teste, slides, artefatos, amostras, coleção de objetos digitais adquiridos e gerados durante o processo de pesquisa, conteúdos de banco de dados (vídeo, áudio, texto, imagens), modelos, algoritmos, scripts, arquivos de log, software de simulação, metodologias e fluxos de trabalho, procedimentos operacionais, padrões e protocolos.
De acordo com Sayão e Sales [1], os dados de pesquisa podem ser classificados como dados observacionais, dados computacionais, dados experimentais. Podem ser também identificados como dados brutos (raw data) ou preliminares, dados derivados, dados referenciais ou canônicos. Embora sejam considerados o alicerce do conhecimento científico, tecnológico e médico, dados de pesquisa não são fáceis de estruturar, organizar, descrever e disponibilizar, para que sejam compreensíveis agora e no futuro. Do registro de dados e informações escritas em cartões e fichas até a gestão digital de dados e conteúdos digitais muita coisa aconteceu. Do ponto de vista do pesquisador, a gestão do ciclo de vida dos dados de pesquisa envolve oito componentes: planejar o dado, criar e coletar, assegurar e aprimorar a qualidade do dado, descrever o dado a partir de metadados apropriados, preservar em repositórios adequados, possibilitar a descoberta, integrar com outros dados, analisar para reiniciar o ciclo.
Editoras Científicas (Publishers) e os dados de pesquisa
Do ponto de vista das Editoras científicas e acadêmicas, alguns parâmetros foram estabelecidos há pouco menos de uma década e continuam a ser aprimorados.
Em fevereiro de 2007, aconteceu o lançamento da STM Brussels Declaration [2], que esclareceu o papel das editoras científicas (STM Publishers) em relação à publicação científica, técnica e médica. Entre os signatários estavam 35 editoras, incluindo a Blackwell, Elsevier, John Wiley & Sons, Macmillan, Nature, Oxford University Press, Sage, Springer, Taylor & Francis, e oito associações de editores. O documento estabeleceu, entre outros tópicos, os princípios do acesso público aos dados de pesquisa.
Em 2008, quando o Conselho Internacional para a Ciência (Interdisciplinary Body of the International Council for Science – ICSU) reuniu-se em Maputo, Moçambique, foi criado o Sistema Mundial de Dados – World Data System – WDS [3], uma organização interdisciplinar que promove a gestão de longo prazo, e o acesso universal e equitativo aos dados científicos de qualidade, assim como os serviços de dados, produtos e informações em toda a gama de disciplinas das ciências naturais às ciências sociais e as humanidades. O ICSU-WDS visa facilitar a pesquisa científica, ao coordenar e apoiar serviços de dados científicos confiáveis para o fornecimento, uso e preservação de conjuntos relevantes de dados, integrando gestores de dados e editoras científicas.
Em julho de 2013, fundou-se a Aliança de Dados de Pesquisa – Research Data Alliance – RDA [4], uma organização internacional para o desenvolvimento de infraestrutura e promoção de atividades orientadas a reduzir as barreiras de troca e compartilhamento de dados. Congrega grupos de trabalho e grupos de interesse dedicados a discutir e elaborar diretrizes e recomendações para a gestão de dados de pesquisa, incluindo certificação de repositórios, reprodutibilidade de dados, dados publicados e editoras científicas, big data, etc.
Em novembro de 2013, novamente as editoras científicas vieram a público para anunciar a permissão da mineração de dados e textos com fins científicos na União Europeia. Os signatários da STM Text and Data Mining for non-commercial scientific research [5] se comprometeram a conceder as licenças de direitos autorais necessários para permitir a mineração de textos e dados de conteúdo protegido por direitos autorais e outros objetos, em condições razoáveis, para fins de investigação científica não comercial na União Europeia, garantindo as devidas salvaguardas técnicas e tecnológicas.
Finalmente, em 2014, foi assinada a Joint Declaration of Data Citation Principles [6], a partir da qual as editoras endossaram os princípios da FORCE11 e reforçaram o pressuposto de que os dados da pesquisa são parte integrante do registro acadêmico. Desta forma, além de assegurar que os pesquisadores obtenham o crédito adequado por seu trabalho, os princípios da citação de dados estabelecem que os dados de pesquisa devem estar facilmente acessíveis, ser devidamente preservados, citados e referenciados.
Isso significa que os dados passam a ser produtos citáveis, aos quais deve ser dada a devida atribuição e crédito como evidências de pesquisa. Além disso, é preciso atribuir aos dados um identificador único [Nota 1] que garanta o acesso persistente e fácil localização por meio de metadados que descrevam especificidades dos dados, documentos e materiais associados, e permitam sua recuperação e verificação. O DataCite é uma é uma organização internacional sem fins lucrativos que fornece identificadores persistentes (DOIs) para dados de pesquisa. Os métodos de citação de dados devem ser suficientemente flexíveis para acomodar as práticas variantes entre as comunidades, mas não devem diferir tanto a ponto de comprometer a interoperabilidade das práticas de citação de dados.
Confira mais abaixo exemplos de citação de dados de pesquisa que, em geral, devem constar na seção de Materiais e Métodos e nas Referências do artigo, e ficam em domínio público sob a licença CC0.
Políticas editoriais e a disponibilidade de dados
Em maio de 2013, o Grupo Editorial Nature passou a exigir que todos os artigos submetidos às suas revistas fossem acompanhados do depósito de dados, materiais e métodos em repositórios de dados de pesquisa. Nessa altura, vários repositórios de dados (inclusive abertos) já existiam e estavam disponíveis para os pesquisadores. A decisão baseou-se em um princípio inerente à publicação científica, ou seja, qualquer pesquisador deve ser capaz de verificar, replicar ou reproduzir a pesquisa realizada, até mesmo utilizar os resultados de pesquisas para promover novos avanços no conhecimento científico e tecnológico. Desde aquela data, os autores são obrigados a tornar materiais, dados, códigos e protocolos associados prontamente disponíveis para os leitores, condição sine qua non para publicação em uma revista Nature. No âmbito dessa normativa, eventuais restrições à disponibilidade de materiais ou informações devem ser divulgadas aos editores no momento da apresentação e quaisquer restrições também devem ser divulgadas no manuscrito submetido. Para informações adicionais, dúvidas e lista de repositórios recomendados, consulte a política de dados da Springer-Nature.
Desde então, diversos editores de revistas científicas passaram a exigir que dados de pesquisa fossem disponibilizados aos editores e revisores no momento da submissão do manuscrito para avaliação, recomendando-se o compartilhamento de grandes conjuntos de dados por meio de repositórios públicos. A Elsevier mantém estrita política de depósito de dados científicos associada ao processo de submissão de artigos por meio da ferramenta bidirecional Database Linking, que fornece as opções de depósito de dados de acordo com a área de pesquisa. Recentemente a Elsevier anunciou a aquisição da ferramenta Hivebench, um caderno de laboratório digital que auxilia o pesquisador a preparar, conduzir e analisar experimentos, métodos e protocolos em um só lugar. Além disso, a Elsevier habilitou a ligação entre os dados de pesquisa e o gerenciador Mendeley Data. A Editora Wiley adotou política de disponibilização de dados de pesquisa por meio da Wiley’s Data Sharing Service e indica o repositório Figshare para depósito de dados.
Alguns repositórios oferecem aos autores a opção de hospedar os dados associados a um manuscrito de forma confidencial e fornecer acesso anônimo para revisores antes do lançamento público. Estes repositórios coordenam então a divulgação pública dos dados com a data de publicação da revista. Esta opção deve ser usada quando possível, mas continua a ser responsabilidade do autor comunicar-se com o repositório para assegurar que a liberação pública dos dados, materiais e métodos seja feita no momento da publicação on-line do artigo. Além dos repositórios de dados por disciplina, várias instituições criaram e mantêm repositórios institucionais e mesmo nacionais, como é o caso do Repositório de Dados Científicos de Portugal,
Para obter informações sobre repositórios públicos de dados, consulte o R3Data – Registry of Research Data Repositories – uma ferramenta de busca de repositórios de dados. De 2012 a 2016, mais de 1.500 repositórios foram indexados no R3Data.
Caso não haja repositórios públicos estruturados na sua área de conhecimento, repositórios não estruturados como Figshare e Dryad são alternativas possíveis, além de outros recursos como o Dataverse, Zenodo, DataHub, DANS, que seguem os princípios FAIR: to be Findable, Accessible, Interoperable, Reusable.
Como uma alternativa menos desejável, conjuntos de dados podem ser disponibilizados como arquivos de informação suplementar. Em casos raros, quando os arquivos de dados não podem ser depositados em um repositório acessível por razões técnicas, os autores devem disponibilizar os dados para editores e revisores, quando solicitados. Após a publicação, os autores devem igualmente organizar os dados e disponibilizá-los a qualquer leitor mediante solicitação. Descritores específicos devem ser associados aos conjuntos de dados para aumentar a transparência da pesquisa e seu reuso.
Disponibilidade de materiais
Outra condição para publicação que tem sido adotada por editores de revistas científicas, é que os autores são obrigados a tornar, além dos dados, os materiais originais disponíveis prontamente a outros, ainda que seja mediante pagamento razoável para cobrir custos como ocorre, por exemplo, com reagentes e sua distribuição. Autores que utilizam novos compostos químicos devem fornecer sua estrutura química, síntese e caracterização de compostos com pormenores experimentais suficientes para permitir a outros pesquisadores reproduzirem a síntese e caracterização. Protocolos experimentais, testes clínicos (Clinical Trials) e códigos de computador seguem orientações específicas.
Requisitos e reprodutibilidade: a importância do método e dos procedimentos
A descrição dos procedimentos e métodos utilizados nas pesquisas sempre foi um elemento crucial no processo científico. No que se refere à publicação, os editores introduziram medidas para melhorar os padrões de apresentação de procedimentos e estatísticas, recomendando também a inclusão de detalhes mais experimentais. A descrição qualificada de parâmetros e variáveis é essencial.
Como referenciar Dados de Pesquisa
- BARNETT, C.L.; BERESFORD, N.A.; WALKER, L.A.; BAXTER, M.; WELLS, C.; COPPLESTONE, D. Element and radionucleide concentrations in representative species of the ICRP’s reference animals and plants and associated soils from a forest in North-west England. NERC — Environmental Information Data Centre, 2013. Disponível em: <http://dx.doi.org/10.5285/e40b53d4-6699-4557-bd55-10d196ece9ea> Acesso em 06 dez. 2016.
- U.S. Department of Health and Human Services. Substance Abuse and Mental Health Services Administration. Office of Applied Studies. Treatment episode data set — discharges (TEDS-D) — concatenated, 2006 to 2011 [Data set]. doi: http://dx.doi.org/10.3886/ICPSR30122.v2 – 2013.
- YOON, J; SOFAER, H.R, SILLET, T. S, MORRISON, S.A., GHALAMBOR, C.K. Data from: The relationship between female brooding and male nestling provisioning: does climate underlie geographic variation in sex roles? Journal of Avian Biology, June 2016. Disponível em: < http://dx.doi.org/10.5061/dryad.f89h2> Acesso em: 06 dez. 2016.
Como criar um Repositório de Dados
A sua instituição precisa de um lugar para hospedar dados de pesquisa? A Universidade de Harvard disponibiliza o Dataverse a qualquer instituição que queira criar um repositório de dados personalizado para pesquisadores, departamentos e professores para compartilhar seus dados de pesquisa.
Para saber mais, consulte também informações sobre provedores de dados registrados – Registered Data Providers
====================================================================
Concluindo…
O volume de dados de pesquisa aumenta exponencialmente. Sua gestão e preservação digital ainda requerem o estabelecimento (e fortalecimento) de políticas globais, governamentais e institucionais mandatórias capazes de garantir o acesso íntegro e integral ao conjunto de dados que embasam as pesquisas científicas. Também a curadoria e preservação desses dados é um desafio enorme que envolve, além dos editores, instituições de fomento e de pesquisa, pesquisadores e bibliotecários.
Diversas bibliotecas universitárias já estão fazendo a gestão de dados de pesquisa: Biblioteca da Universidade de Oregon, Biblioteca da Universidade de St. Andrews, Biblioteca da Universidade de Sheffield, Biblioteca da Universidade de Lancaster, Biblioteca da Universidade de Harvard, Bibliotecas da Universidade de Stanford, Biblioteca da Universidade de Leeds, etc.
Notas
[Nota 1] DOI (Digital Object Identifier), URI (Uniform Resource Identifier), PURL (Persistent Uniform Resource Locator), HDL (The Handle System), etc.
Referências
[1] SAYÃO, Luis Fernando; SALES, Luana Farias. Guia de Gestão de Dados de Pesquisa para Bibliotecários e Pesquisadores. Rio de Janeiro: CNEN/IEN, 2015. Disponível em: <http://www.cnen.gov.br/images/CIN/PDFs/GUIA_DE_DADOS_DE_PESQUISA.pdf > Acesso em: 20 JUNHO 2016.
[2] INTERNATIONAL ASSOCIATION OF SCIENTIFIC, TECHNICAL AND MEDICAL PUBLISHERS (STM). Brussels Declaration on STM Publishing. Brussels, Nov. 2007. Disponível em: <http://www.stm-assoc.org/2007_11_01_Brussels_Declaration.pdf> Acesso em: 20 junho 2016.
[3] ICSU – WORLD DATA SYSTEM. General Assembly 2008. Maputo, Moçambique, 2008. Disponível em: < https://www.icsu-wds.org/organization/intro-to-wds > Acesso em: 20 junho 2016.
[4] THE RESEARCH DATA ALLIANCE. RDA. The Research Data Alliance: A new international initiative to tap the research potential of the Internet In collaboration with the Transatlantic Policy Network. Washington DC, Library of Congress, 2013. Disponível em: < https://www.rd-alliance.org/ > Acesso em: 20 junho 2016.
[5] INTERNATIONAL ASSOCIATION OF SCIENTIFIC, TECHNICAL AND MEDICAL PUBLISHERS (STM). Text and Data Mining for Non-Commercial Scientific Research. Disponível em: http://www.stm-assoc.org/2013_11_11_Text_and_Data_Mining_Declaration.pdf Acesso em: 20 junho 2016.
[6] DATA CITATION SYNTHESIS GROUP. Joint Declaration of Data Citation Principles. Martone M. (ed.) San Diego CA: FORCE11; 2014. Disponível em: < https://www.force11.org/group/joint-declaration-data-citation-principles-final > Acesso em: 20 junho 2016.
Leia também: Competências do Bibliotecário na Gestão de Dados de Pesquisa, Comunicação Científica e Acesso Aberto.
Como citar este post [ABNT/NBR 6023/2002]:
DUDZIAK, Elisabeth. Dados de Pesquisa agora devem ser armazenados e citados. 2016. Disponível em: <http://www.aguia.usp.br/?p=6189> Acesso em: DD mês. AAAA.
This article was published on Jun 22, 2016. Updated on Dec. 7, 2016.