Artículos de temática libre
Reuso de dados de pesquisa: uma revisão bibliométrica
Resumo: No decorrer do tempo foram sendo observadas as potencialidades econômicas no compartilhamento e reuso dos dados de pesquisa. A Organização para Cooperação e Desenvolvimento Econômico (OCDE), em meados da década de 1990, recomendou o compartilhamento dos dados de pesquisa com financiamento público. O reuso de dados pesquisa permite a reanálise de evidências, reprodução e verificação de resultados, minimizando a duplicação de esforços, e aproveitando o trabalho de outros. Com o objetivo de verificar como o tema vendo sendo tratado pela literatura científica, com o uso do instrumento Knowledge Development Process Constructivist (ProKnow-C), foram selecionados 32 artigos para compor um portfólio bibliográfico representativo e qualificado, que foi analisado a partir de bibliometria. A análise permitiu verificar os autores que mais publicaram artigos sobre a temática, bem como os periódicos mais relevantes, como o PLOS ONE que concentrou 5. Dos 32 artigos selecionados, 28 receberam menos de 100 citações, a partir do Google Scholar. Foi possível verificar também uma tendência de pesquisas na área da Ciência da informação uma vez que os periódicos de destaque no portfólio bibliográfico estão vinculados a essa área do conhecimento. O uso do Proknow-C se mostrou importante para identificar os artigos mais relevantes sobre o reuso de dados de pesquisa.
Palavras-chave: Reuso de dados de pesquisa, Dados secundários, Análise secundária, Bibliometria, Proknow-C.
Reuse of research data: a bibliometric review
Abstract: In the course of time being observed surveys such as the use of data and surveys were carried out. The Organization for Economic Co-operation and Development (OECD), in the mid 1990s, recommended sharing research data with public funding. The research data reuse allows for evidence reanalysis, reproduction and verification of results, minimizing duplication of effort, and leveraging the work of others. With the objective of verifying how the subject seeing being treated by the scientific literature, with the use of the instrument Knowledge Development Process Constructivist(ProKnow-C), 32 references were selected for a representative and qualified bibliographic portfolio, which was analyzed based on bibliometrics.It was possible to verify that Kim was the author who published the most, the journal PLOS ONE was also relevant to the theme. Of the 32 articles selected, 28 received less than 100 citations from Google Scholar. It was also possible to verify that there is a trend of research in information science since the outstanding journals in the bibliographic portfolio are linked to this area of knowledge. The use of Proknow-C proved to be important to identify the most relevant articles on the reuse of research data.
Keywords: Reuse of research data, Secondary data, Secondary analysis, Bibliometrics, Proknow-C.
Reutilización de datos de investigación: una revisión bibliométrica
Resumen: A lo largo del tiempo se observó el potencial económico de compartir y reutilizar los datos de investigación. Ya la Organización para la Cooperación y el Desarrollo Económicos (OCDE), a mediados de la década de 1990, recomendó compartir datos de investigación financiados con fondos públicos. La reutilización de los datos de investigación permite volver a analizar la evidencia, reproducir y verificar los resultados, minimizando la duplicación de esfuerzos y aprovechando el trabajo de otros. Con el objetivo de verificar cómo está siendo tratado el tema por la literatura científica, utilizando el instrumento Knowledge Development Process Constructivist (ProKnow-C), se seleccionaron 32 artículos para un portafolio bibliográfico representativo y calificado, que fue analizado mediante um abordaje bibliométrico. En él, fue posible verificar los autores que publicaron más artículos sobre el tema. La revista PLOS ONE también fue relevante para el tema con un total de 5 artículos. De los 32 artículos seleccionados, 28 recibieron menos de 100 citas de Google Scholar. También se pudo constatar una tendencia de investigación en el área de ciencias de la información, ya que las revistas que se destacan en el portafolio bibliográfico están vinculadas a esta área de conocimiento. El uso de Proknow-C demostró ser importante para identificar los artículos más relevantes sobre la reutilización de datos de investigación.
Palabras clave: Reutilización de datos de investigación, Datos secundarios, Análisis secundario, Bibliometría, Proknow-C.
1. Introdução
No passado, dados de pesquisa duramente coletados eram compartilhados apenas entre alguns colegas confiáveis e conhecidos (Curty, Crowston, Specht, Grant & Dalton, 2017). No entanto, no decorrer do tempo foram sendo observadas as potencialidades econômicas no compartilhamento e reuso desses dados.
A ideia de que a reutilização de dados de pesquisa possibilita a economia de custos e esforços de pesquisa, começou a ganhar visibilidade com as discussões lideradas pela Organização para Cooperação e Desenvolvimento Econômico (OCDE), no Reino Unido, em meados da década de 1990, que recomendou o compartilhamento e o acesso aberto a dados de pesquisa com financiamento público dentro e entre comunidades de pesquisa. (Chauvette, Chick-Makaroff & Molzahn, 2019; Childs, Loma, Mcleod & Cook, 2014; Van de Sandt, Dallmeier-Tiessen, Lavasa & Petras, 2019).
Em 2001, os institutos nacionais de saúde dos Estados Unidos, foram uma das primeiras agências de financiamento a introduzir uma política de compartilhamento de dados de pesquisa (Perrier, Blondal & Macdonald, 2020). Aos poucos essa exigência, foi sendo incorporada por periódicos de alto impacto, como Nature e a família de periódicos PLOS (Park & Wolfram, 2017).
Muitas partes interessadas estão envolvidas nas infraestruturas de conhecimento associadas aos dados de pesquisa. Estes incluem os pesquisadores e equipes que produzem os dados, agências de financiamento que fornecem os recursos para conduzir pesquisas, universidades e outras instituições de pesquisa onde as investigações são baseadas ou conduzidas, formuladores de políticas de pesquisa em organizações públicas e privadas, usuários atuais e potenciais desses dados e as bibliotecas e arquivos que podem ser responsáveis pela sua gestão (Borgman, Scharnhorst & Golshan, 2019).
Embora os dados sejam partes fundamentais do processo de pesquisa, extraí-los como produtos a serem compartilhados e reutilizados por outros pesquisadores, pode ser uma tarefa árdua, que envolve uma diversidade dados, indivíduos, disciplinas, contextos, culturas, requer tempo e esforço necessários para entender e reanalisar os dados publicados, despesas além da condução da pesquisa em si e a privacidade dos participantes das pesquisas (Borgman, Scharnhorst & Golshan, 2019; Joo, Kim & Kim, 2017; Park & Wolfram, 2017; Thanos, 2017).
Thanos (2017) afirma que apesar do reuso de dados pesquisa ser considerado complexo, ele tem se tornando uma característica distinta da prática científica moderna, pois permite a reanálise de evidências, reprodução e verificação de resultados, minimizando a duplicação de esforços.
A reutilização de dados de pesquisa ou a reusabilidade é entendida pelo autor como a facilidade de utilização de dados para pesquisa científica legitimada por uma ou mais comunidades de pesquisa (comunidades de consumidores) e que são produzidas por outras comunidades de pesquisa (comunidades de produtores) com um propósito para estudar um novo problema. Van de Sandt, Dallmeier-Tiessen, Lavasa & Petras, (2019) ampliam a abrangência do reuso de dados de pesquisa como o uso de qualquer recurso de pesquisa independente de quando é usado, a finalidade, as características dos dados e seu usuário, ou seja, nessa perspectiva o reuso pode ser caracterizado pelo o uso dos dados pela pessoa o coletou para a mesma finalidade ou para outra.
Para Gregory (2020) a reutilização de dados de pesquisa pode ser uma grande promessa da pesquisa, pois têm sido propostas diversas plataformas e políticas para facilitar a descoberta e a reutilização desses dados, tais como: a European Open Science Cloud, esquemas de metadados (como o esquema DataCite), e repositórios de dados de pesquisa, como Google Dataset e o Research Datada Elsevier.
Portanto, com o uso do instrumento Knowledge Development Process Constructivist (ProKnow-C), foram selecionados artigos sobre o tema reuso de dados de pesquisa, os quais compuseram um portfólio bibliográfico representativo e qualificado do tema. Posteriormente, foi realizada uma análise bibliométrica, com o uso dos indicadores autores, periódicos e palavras-chaves com o objetivo de destacar sua relevância na temática apresentada.
Este artigo está organizado da seguinte maneira: após a seção introdutória, na seção dois serão apresentados os aspectos metodológicos que conduziram a pesquisa, na seção três é apresentada a bibliometria onde são descritos os resultados encontrados e as discussões, na seção quatro são realizadas as conclusões e na última seção são apresentadas as referências utilizadas.
2. Metodologia
Trata-se de uma revisão sistematizada da literatura usando o instrumento ProKnow-C, cujo objetivo é embasar a construção do conhecimento do pesquisador sobre uma determinada temática a partir da seleção dos artigos relevantes que irão compor um portfólio bibliográfico (Lacerda, Ensslin & Ensslin, 2012). O processo é composto por quatro etapas: (a) seleção de um portfólio de artigos sobre o tema da pesquisa; (b) análise bibliométrica do portfólio; (c) análise sistêmica; e a (d) definição da pergunta e do objetivo de pesquisa (Ensslin, Ensslin & Pinto, 2013). A Figura 1 ilustra essas etapas.
Neste artigo é relatado apenas as duas primeiras etapas do Proknow-C, a seleção do portfólio bibliográfico e a realização da bibliometria, a partir da análise dos autores, periódicos e palavras-chaves. Pois entende-se que para os propósitos desta pesquisa, as duas primeiras etapas do Proknow-C são suficientes.
A seleção e análise do portfólio bibliográfico foi iniciada a partir da identificação dos artigos que compuseram o banco de dados de artigos brutos, da filtragem dos artigos com base no alinhamento da pesquisa e da demonstração da representatividade do portfólio bibliográfico através da bibliometria. Na Figura 2 são sintetizadas as atividades que fizeram parte da composição do banco de dados de artigos brutos.
A composição do banco de artigos brutos abarcou a definição dos eixos de pesquisa e das palavras-chave, as combinações de busca e a seleção das bases de dados. Foram definidas duas bases multidisciplinares, a Scopus e a Web of Science (WOS) e duas bases de dados específicas da área da Ciência da Informação, a Library Information Science & Technology Abstracts with full text (LISTA) e a Base de Dados Referenciais de Artigos de Periódicos em Ciência da Informação (BRAPCI). O critério de seleção das bases se baseou na cobertura temática, na disponibilização de ferramentas de busca que abrangiam operadores booleanos, na possibilidade de realizar o refinamento dos resultados e na importação dos registros para software gerenciadores.
As buscas nas bases de dados foram realizadas em abril de 2022. Nas bases de dados Scopus e WOS, as buscas se concentram nos títulos, nas palavras-chave e no resumo, enquanto que nas bases LISTAe BRAPCI as buscas foram realizadas em todos os campos, devido a limitação dessas fontes. Foram definidos como critérios elegibilidade: artigos de periódicos publicados nos idiomas inglês, espanhol e português e com cobertura temporal de 2012 a 2022 para que se pudesse abarcar os artigos recentes e representativos sobre o tema. O número de registros recuperados em cada base de dados, estão descritos no Quadro 1.
Após as buscas, foram selecionados 2 artigos de maneira aleatória para o teste de aderência das palavras-chaves utilizadas na busca, cujo objetivo foi verificar a necessidade de adição de outros que termos que também representassem o tema da pesquisa, no entanto, não foram identificados novos termos.
A atividade seguinte do Proknow-C correspondeu a filtragem dos artigos com base no alinhamento da pesquisa, conforme apresentado na Figura 3.
Os 1.069 registros recuperados que compuseram o banco de artigos brutos foram exportados para o gerenciador bibliográfico Mendeley, onde foram identificados os registros duplicados. A exclusão desses registros gerou um conjunto com 572 registros que passaram a compor a atividade de leitura dos títulos, que identificou que 291 registros não possuíam alinhamento com o tema da pesquisa, restando 281 trabalhos.
Esses 281 registros, cujos títulos possuíam alinhamento com o tema da pesquisa, foram analisados pelo seu reconhecimento científico, obtido pelo índice de citações gerados pelo Google Scholar. A partir do índice de citação de cada artigo, foi aplicado conceito do Teorema de Pareto, no qual os artigos mais citados representam a maioria do reconhecimento científico presente no conjunto atual de artigos (Lacerda, Ensslin & Ensslin, 2012). Com isso, somando todas as citações dos 281 artigos analisados, obteve-se um total de 5.943 citações, desses, um conjunto com 61 artigos representaram 80,83% de todas as citações. Contudo, os artigos que individualmente foram citados 22 vezes ou mais, foram incluídos no portfólio de pesquisa, pois possuíam o reconhecimento científico de acordo com o Teorema de Pareto (Lacerda, Ensslin & Ensslin, 2012).
Na atividade seguinte foi realizada a leitura dos resumos desses 61 artigos, cujo objetivo foi verificar seu alinhamento com o tema de pesquisa, como resultado dessa atividade obteve-se a identificação de 35 artigos com reconhecimento científico e com alinhamento ao tema.
Os 220 artigos que não possuíam reconhecimento científico, ou seja, aqueles que corresponderam a apenas 19,17% das citações, conforme Teorema de Pareto, passaram por um processo de reconsideração, cujas condições para fazerem parte do portfólio da pesquisa, era que precisavam ter sido publicados há menos de 2 anos, dado que não tiveram possibilidades de serem bem citados ainda e que os artigos publicados há mais de 2 anos, devessem ser de autoria de algum pesquisador já presente no grupo dos artigos com reconhecimento científico e com alinhamento ao tema (Lacerda, Ensslin & Ensslin, 2012). Após essa etapa, 6 artigos foram adicionados ao banco de artigos não repetidos, mas alinhados com título e resumo e com reconhecimento científico potencial. A Figura 4 sintetiza todas as etapas envolvidas na filtragem dos artigos com base no alinhamento da pesquisa.
Com base na Figura 4, é possível observar que ao final do processo 41 artigos passaram para a fase de leitura integral dos textos, a fim de concluir a filtragem dos artigos conforme alinhamento da pesquisa. Ao fim da leitura, 32 artigos foram selecionados para compor o portfólio de pesquisa, conforme autores citados no Quadro 2 e as referências listadas no Apêndice A.
Citações | Ano | Autores | Citações | Ano | Autores |
328 | 2015 | Fecher, Friesike, & Hebing | 39 | 2015 | Womack |
273 | 2018 | Bhattacharya, Dunn, Thomas, Smith, Schaefer, Chen, Hu, Zalocusky, Shankar, Shen-Orr, Thomson, Wiser & Butte | 36 | 2019 | Van de Sandt, Dallmeier-Tiessen, Lavasa & Petras |
195 | 2014 | Danciu, Cowan, Basford, Wang, Saip, Osgood, Shirey-Rice, Kirby, & Harris | 35 | 2019 | Zuiderwijka & Spiers |
107 | 2015 | Federer, Lu, Joubert, Welsh & Brandys, | 31 | 2018 | Tenopir, Christian, Allard & Borycz |
86 | 2018 | Pãnescu & Manta | 29 | 2017 | Joo, Kim & Kim |
86 | 2020 | Carroll, Garba, Figueroa-Rodríguez, Holbrook, Lovett, Materechera, Parsons, Raseroka, Rodriguez-Lonebear, Rowe, Sara, Walker, Anderson & Hudson | 29 | 2020 | Perrier, Blondal & Macdonald |
80 | 2017 | Curty, Crowston, Specht, Grant, Bruce & Dalton | 28 | 2016 | He & Nahar |
69 | 2017 | Yoon | 25 | 2017 | Thanos |
69 | 2019 | Chauvette,Schick-Makaroff, & Molzahn | 24 | 2020 | Sinaci, Núñez-Benjumea, Gencturk, Jauer, Deserno, Chronaki, Cangioli, Cavero-Barca, Rodríguez-Pérez, Pérez-Pérez, Erturkmen, Hernández-Pérez, Méndez-Rodríguez & Parra-Calderón |
61 | 2014 | Childs, Loma, Mcleod & Cook | 13 | 2017 | Joo & Kim |
57 | 2012 | Irwin, Winterton | 11 | 2019 | Yoon & Lee |
48 | 2016 | Poole | 9 | 2020 | Chatfield |
46 | 2017 | Park & Wolfram | 5 | 2019 | Park & Park |
44 | 2020 | Gregory, Cousijn, Groth, Scharnhorst & Wyatt | 3 | 2021 | Imker, Luong, Mischo, Schlembach & Wiley |
42 | 2018 | Kim & Nah | 3 | 2020 | Gregory |
42 | 2019 | Borgman, Scharnhorst & Golshan | 2 | 2021 | Krämer, Papenmeier, Carevic, Kern & Mathiak |
Esses artigos serão analisados na seção seguinte por meio de uma análise bibliométrica a partir dos indicadores autor, periódicos e palavras-chave com o objetivo de destacar sua relevância na literatura.
3. Análise dos dados
A análise do portfólio de artigos selecionados foi dividida em três etapas: a) análise bibliométrica dos artigos que compuseram o portfólio bibliográfico; b) análise bibliométrica das referências citadas nesses 32 artigos e a c) classificação dos artigos conforme relevância.
3.1 Análise bibliométrica do portfólio bibliográfico
No indicador autor, o objetivo foi identificar aqueles que mais publicaram sobre o tema e fazer uma breve caracterização dos autores de destaque. Foram identificados 121 autores, sendo que os 5 que mais se destacaram no portfólio bibliográfico, estão descritos na Figura 5.
Pode-se observar que Youngseek Kim foi o autor mais relevante no portfólio com 3 artigos publicados, Kathleen Gregory, Thomas Kramer, Hyoungjoo Park e Andrea Scharnhorst, possuíam 2 artigos, os demais autores não apresentados na Figura 5 possuíam apenas 1 artigo publicado no conjunto de artigos selecionados.
A partir da base de dados Scopus, foram levantadas algumas características dos autores de destaque, as quais estão sintetizadas no Quadro 3.
Ao se analisar a afiliação dos autores, é possível verificar que eles concentram no continente europeu e asiático. Em relação às publicações, ao se verificar a quantidade de publicações Youngseek Kim e Andrea Scharnhorst são os mais produtivos, com 36 e 69 documentos produzidos e indexados na base Scopus, respectivamente.
Andrea Scharnhorst também é a autora mais citada e com mais impacto. Embora, em seus tópicos de proeminência dos últimos 5 anos (2017-2021) não tenham relação com o reuso de dados,1 a autora, já possui um histórico longo de publicações, tendo o primeiro trabalho indexado em 1986, os estudos sobre reuso de dados de pesquisa, podem ser ainda pouco expressivos com relação as referências usadas no período.
Ainda em relação aos tópicos de proeminência, o reuso de dados aparece com destaque nos trabalhos citados por Kim, Youngseek, Gregory, Kathleen M. e Park, Hyoungjoo, o que pode ser um indicativo de que a temática tem ganhado atenção na literatura.
No indicador periódicos, objetivo foi identificar o mais relevante no portfólio e realizar uma breve caracterização a partir do índice do Journal Citation Reports (JCR) e da categoria temática de cada um. Foram identificados 23 periódicos, conforme Quadro 4.
Periódicos | Quantidade | E-ISSN | JCR 2020 | Categoria |
PLOS ONE | 5 | 1932-6203 | 3.240 | Ciências multidisciplinares |
Data science journal | 2 | 1683-1470 | N/D | Não identificada |
Journal of the Association for Information Science And Technology | 2 | 2330-1643 | 2.687 | Ciência da informação e Ciência da computação |
Scientific data | 2 | 2052-4463 | 6.444 | Ciências multidisciplinares |
Aslib Journal of information management | 2 | 1758-3748 | 1.903 | Ciência da informação e Ciência da computação |
Online information review | 2 | 1468-4535 | 2.325 | Ciência da informação e Ciência da computação |
Electronic library | 1 | 1758-616X | 1.453 | Ciência da informação |
International journal of information management | 1 | 1873-4707 | 14.098 | Ciência da informação |
International journal of qualitative methods | 1 | 1609-4069 | 2.767 | Ciências sociais e Interdisciplinares |
International journal on digital libraries | 1 | 1432-1300 | 0.62* | Ciência da informação |
Journal of academic librarianship | 1 | 1879-1999 | 1.533 | Ciência da informação |
Journal of documentation | 1 | 1758-7379 | 1.819 | Ciência da informação |
Journal of information science | 1 | 1741-6485 | 3.282 | Ciência da informação |
Malaysian journal of library & information Science | 1 | 1394-6234 | 1.250 | Ciência da informação |
Publications | 1 | 2304-6775 | 0.79* | Ciência da informação |
Qualitative report | 1 | 2160-3715 | 0.48* | Ciências sociais e Interdisciplinares |
Science & technology libraries | 1 | 1541-1109 | N/D | Ciência da informação |
Scientometrics | 1 | 1588-2861 | 3.238 | Ciência da informação e Ciência da computação |
Sociological research online | 1 | 1360-7804 | 2.417 | Sociologia |
Journal of biomedical informatics | 1 | 1532-0480 | 6.317 | Ciência da computação e Informática médica |
Records management journal | 1 | 1758-7689 | 0.54* | Ciência da informação |
Earth and space science | 1 | 2333-5084 | 2.900 | Geociências |
Methods of information in medicine | 1 | 2511-705X | 2.176 | Informática médica |
O periódico que mais concentrou publicações foi o PLOS ONE, com 5 artigos, o Data science journal, o Journal of the Association for Information Science and Technology, o Scientific data, o Aslib Journal of information management e o Online information review concentraram a publicação de 2 artigos e os demais concentraram a publicação de apenas 1 artigo.
Ao se relacionar a área do periódico com os 32 artigos do portfólio, verifica-se que 10 artigos são da Ciência da informação, 7 da Ciência da informação e Ciência da computação, 7 das Ciências multidisciplinares, 2 das Ciências sociais e Interdisciplinares, 1 da Ciência da computação e Informática médica, 1 da Geociências, 1 da Sociologia, 1 da Informática médica e 2 não tiveram a área identificada. Com isso, pode-se inferir que a Ciência da informação em consonância com outras áreas do conhecimento tem forte influência na interdisciplinaridade do tema reuso de dados de pesquisa.
Conforme o Quadro 5, é possível verificar ainda que dos 23 periódicos identificados, 14 são da área de Ciência da Informação, dos quais 1 concentra a publicação no Quartil 1, 3 se concentram em Quartil 2, 6 no Quartil 3 e os demais não estão classificados nos quartis.
Pode-se observar ainda que o tema tem começado a ganhar visibilidade na Ciência da Informação, uma vez que a maioria deles tem se concentrado nos periódicos situados no quartil 3.
O último indicador estudado foi as palavras-chave dos artigos selecionados, sendo que foram identificadas 123 palavras, sintetizadas na Figura 6.
Pode-se verificar que as palavras “research data”, “data sharing” e “data reuse”, foram as palavras que mais obtiveram destaque. Sendo que “data reuse” foi a mais citada, sendo utilizada 8 vezes; “data sharing” e “research data” foram citadas 6 vezes cada uma; “data management” foi citada 4 vezes e “citation analysis” foi citada 3 vezes. As demais receberam 2 ou menos citações. Com isso, pode-se inferir que o reuso de dados (tradução literal para “data reuse”) tem forte ligação com os estudos que tratam sobre compartilhamento de dados (tradução de “data sharing”).
3.2 Análise bibliométrica das referências dos artigos do portfólio
A próxima análise foi realizada a partir das referências citadas nos 32 artigos que compuseram o portfólio bibliográfico. Essa análise, teve como objetivo verificar: a) o reconhecimento científico dos artigos pelo número de citações; b) o número de artigos publicados por periódico e c) o número de artigos por autor. Foram identificas 1.146 artigos citados nas referências, nesta análise foram considerados apenas artigos científicos.
Quanto ao reconhecimento científico, os 10 artigos mais citados estão descritos no Quadro 6 e as referências arroladas no Apêndice B.
Pode-se observar que em relação ao reconhecimento científico extraído a partir das citações do Google Scholar, nenhum dos títulos explicita o termo “reuso de dados de pesquisa”, o que pode indicar que este é um tema recente e que ainda carece de reconhecimento científico considerando as citações.
A análise seguinte teve como objetivo identificar os autores mais citados nas referências, foram identificados 2.668 autores, sendo que os 5 mais citados são apresentados na Figura 7.
Dentre os 5 autores mais citados Christine Borgman recebeu 41 citações, Joshua Denny recebeu 34 citações, Youngseek Kim recebeu 30 citações, Suzie Allard e Mike Frame receberam 28 citações cada. Pode-se observar que dos 5 autores mais citados nas referências, Youngseek Kim é o autor que mais concentra publicações no portfólio bibliográfico.
No quadro 7 é possível verificar as características dos autores mais relevantes das referências.
Ao se analisar o país de afiliação dos autores mais citados das referências, é possível verificar que eles concentram nos Estados Unidos. Em relação às publicações, ao se verificar a quantidade de publicações Joshua Denny, se destaca com 416 e além disso, suas publicações tem um grande impacto, com 22.299 citações num espaço temporal de 22 anos. No entanto, esse autor, é o único cujos tópicos de proeminência dos últimos 5 anos, não citam explicitamente o reuso de dados, mas citam a anonimização, que é um processo que faz parte do escopo de estudos de reuso de dados.
A última análise buscou identificar os periódicos que foram mais citadas nas referências. Foram identificados 405 periódicos, desses os 5 mais citados são apresentados na Figura 8.
Dos periódicos citados, a PLOS ONE teve 96 artigos publicados, o International journal of digital curation, foi citado por 54 artigos, o Journal of the Association for Information Science and Technology, foi citado por 39 artigos, o Journal of the American Society for Information Science and Technology foi citado por 25 artigos e o Data Science Journal foi citado por 24 artigos.
Desses periódicos, a PLOS ONE, o Journal of the Association for Information Science and Technology e o Data science journal foram periódicos que mais concentraram publicações presentes no portfólio bibliográfico, sendo que o primeiro também foi o periódico de maior destaque.
Embora os periódicos International journal of digital curation e o Journal of the American Society for Information Science and Technology não tenham aparecido no portfólio bibliográfico, eles também concentram sua temática na Ciência da informação e áreas correlatas.
Ao se correlacionar os periódicos mais citados nas referências com os periódicos citados no portfólio bibliográfico, novamente a área da Ciência da informação é a área que mais se destaca.
3.3 Classificação dos artigos conforme relevância acadêmica
Para classificar os artigos do portfólio pela sua relevância acadêmica, o presente estudo adotou três eixos de avaliação, sendo: a) relevância dos autores a partir da quantidade de vezes que ele foi citado nas referências do portfólio e nas referências; b) periódicos de maior destaque no portfólio e nas referências e c) representatividade dos autores nos artigos no portfólio.
A relevância dos autores foi verificada a partir da comparação entre a quantidade publicações no portfólio e a quantidade de publicações nas referências, conforme Figura 9.
Ao se comparar os 10 autores mais citados nas referências com os 10 autores mais citados no portfólio bibliográfico, pode-se observar que a relevância dos autores do portfólio não foi confirmada, uma vez que nenhum deles se aproximou da quantidade de publicações dos autores citados nas referências.
No entanto, ao se relacionar as características desses autores, conforme Quadro 8, pode-se observar que o país de afiliação se concentra nos Estados Unidos e que em 6 deles mantêm a proeminência de tópicos na área da reuso de dados, pesquisadores e bibliotecários. O que coincide com as análises já verificadas nos autores do portfólio.
Isto é, apesar da relevância dos autores do portfólio em relação aos autores referências não ser confirmada no que condiz as citações, ela se confirmou nos tópicos de proeminência reuso de dado, pesquisadores e bibliotecários.
Ao se realizar uma comparação entre o número de artigos publicados no portfólio e o número de artigos citados nas referências, o PLOS ONE foi o mais representativo, pois obteve destaque tanto nas referências concentrando a publicação de 96 artigos quanto portfólio concentrando a publicação em artigos dos 32 selecionados, conforme Figura 10.
Ao se analisar os 23 periódicos que concentram a publicação dos 32 artigos selecionados no portfólio, 14 deles pertencem a Ciência da informação, embora ainda não tenham representatividade em relação às referências utilizadas, pode-se dizer que o tema reuso de dados tem forte aceitação nos periódicos da área, podendo ser caracterizado como um tema emergente.
A variável seguinte teve como objetivo identificar a representatividade dos autores, a partir da relação entre os autores mais citados nas referências e do número de citações recebidas, no Google Scholar, pelos artigos do portfólio, conforme Figura 11.
Pode-se observar que dos 32 artigos, 28 receberam menos de 100 citações, desses 22 são relevantes para o tema, mas os autores ainda carecem de reconhecimento científico, pois receberam menos de 20 citações nas referências utilizadas, conforme o primeiro quadrante. No segundo quadrante é possível verificar que 4 artigos receberam mais de 100 citações, no entanto, os autores desses artigos também carecem de reconhecimento científico receberam menos de 20 citações nas referências utilizadas. No terceiro quadrante, é possível verificar que há um reconhecimento científico dos autores no portfólio, pois receberam 20 ou mais citações, mas ainda não há um reconhecimento dos artigos científicos que compõem o portfólio. E por fim, pode-se verificar no quarto quadrante, que ainda não há simultaneamente o reconhecimento dos autores e nem dos artigos científicos.
Considerações finais
O uso do Proknow-C possibilitou identificar um portfólio bibliográfico representativo e qualificado do tema, a partir da seleção de 32 artigos científicos. No entanto, ao se analisar as citações no Google Scholar, 28 deles receberam menos de 100 citações. Sendo que, 22 artigos dessa maioria, os autores ainda carecem de reconhecimento científico, pois receberam menos de 20 citações quando comparados com as referências utilizadas no portfólio selecionado. Os artigos que receberam mais de 100 citações, os autores também carecem de reconhecimento científico, pois receberam menos de 20 citações quando também comparados com as referências utilizadas no portfólio selecionado. Esses dados podem sugerir, que o tema “reuso de dados de pesquisa” ainda é emergente, uma vez que de maneira geral os artigos ainda carecem de reconhecimento.
Na análise bibliométrica foi possível identificar que Youngseek Kim, Kathleen Gregory, Thomas Kramer, Hyoungjoo Park e Andrea Scharnhorst são os autores de maior destaque e partir da análise dos assuntos das referências os temas: pesquisadores, reuso de dados e bibliotecários são temáticas de interesse para a maioria desses autores.
O uso do Proknow-C se mostrou importante para identificar os artigos mais relevantes sobre o reuso de dados de pesquisa. No entanto, para a aplicação da metodologia estar completa, será necessário realizar a análise sistêmica do conteúdo dos artigos selecionados para identificar as oportunidades de pesquisa, possíveis melhorias e assim definir a perguntas e os objetivos de pesquisa.
Como ponto de partida para os estudos sobre o reuso de dados, esta pesquisa demonstrou os autores e os periódicos que mais tem publicado sobre esta temática bem como as palavras-chaves que podem ajudar na compreensão das relações do reuso de dados.
A Ciência da informação, sendo a área do conhecimento que teve maior destaque para o tema, descortina-se com um horizonte de possibilidades de exploração de pesquisas tais como: identificar como tema vem sendo estudado, quais os paradigmas têm dominado, se os autores dessa área têm compartilhado e reutilizado dados, se há padrões de metadados e de citações sendo utilizados, em quais países as pesquisas sobre o reuso de dados tem se concentrado se elas tem correlação com as políticas regulatórias e investimentos, bem como outros estímulos para reconhecimento.
Referências
Borgman, C. L., Scharnhorst, A. & Golshan, M. S. (2019). Digital data archives as knowledge infrastructures: Mediating data sharing and reuse. Journal of the Association for Information Science and Technology, 70(8), 888-904. https://doi.org/10.1002/asi.24172
Chauvette, A., Schick-Makaroff, K. & Molzahn, A. E. (2019). Open data in qualitative research. International journal of qualitative methods, 18. https://doi.org/10.1177/1609406918823863
Childs, S., Loma, E., Mcleod, J. & Cook, G. A. (2014). Opening research data: issues and opportunities. Records management journal, 24(2), 142-162. https://doi.org/10.1108/RMJ-01-2014-0005
Curty, R. G., Crowston, K., Specht, A., Grant, B. W. & Dalton, E. D. (2017). Attitudes and norms affecting scientists’ data reuse. PLOS ONE, 12(12), 1-22. https://doi.org/10.1371/journal.pone.0189288
Ensslin, L.; Ensslin, S. R. & Pinto, H. M. (2013). Processo de investigação e análise bibliométrica: avaliação da qualidade dos serviços bancários. Revista de administração contemporânea, 17(3), 325-349. https://doi.org/10.1590/S1415-65552013000300005
Gregory, K. M. (2020). A dataset describing data discovery and reuse practices in research. Scientific data, 7(232), 1-11. https://doi.org/10.1038/s41597-020-0569-5
Joo, S., Kim, S. & Kim, Y. (2017). An exploratory study of health scientists’ data reuse behaviors: examining attitudinal, social, and resource factors. Aslib journal of information management, 69(4), 1-29. https://doi.org/10.1108/AJIM-12-2016-0201
Lacerda, R. T. O., Ensslin, L. & Ensslin, R. S. (2012). Uma análise bibliométrica da literatura sobre estratégia e avaliação de desempenho. Gestão de produção, 19(1), 59-78. https://doi.org/10.1590/S0104-530X2012000100005
Park, H. & Wolfram, D. (2017). An examination of research data sharing and re-use: implications for data citation practice. Scientometrics, 111, 443-461. https://doi.org/10.1007/s11192-017-2240-2
Perrier, L., Blondal, E. & Macdonald, H. (2020). The views, perspectives, and experiences of academic researchers with data sharing and reuse: a meta-synthesis. PLOS ONE, 15(2), 1-21. https://doi.org/10.1371/journal.pone.0229182
Thanos, C. (2017). Research data reusability: conceptual foundations, barriers and enabling technologies. Publications, 5(2), 1-19. https://doi.org/10.3390/publications5010002
Van de Sandt, S., Dallmeier-Tiessen, S., Lavasa, A. & Petras, V. (2019). The definition of reuse. Data science journal, 18(22), 1-19. https://doi.org/10.5334/dsj-2019-022
Apêndice A – Artigos que fazem parte do portfólio bibliográfico
Bhattacharya, S., Dunn, P., Thomas, C. G., Smith, B., Schaefer, H., Chen, J., Hu, Z., Zalocusky, K. A., Shankar, R. D., Shen-Orr, S. S., Thomson, E., Wiser, J. & Butte, A. J. (2018). ImmPort, toward repurposing of open access immunological assay data for translational and clinical research. Scientific data, 5, 1-9.
Borgman, C. L., Scharnhorst, A. & Golshan, M. S. (2019). Digital data archives as knowledge infrastructures: mediating data sharing and reuse. Journal of the Association for Information Science and Technology, 70(8), 888-904. https://doi.org/10.1002/asi.24172
Carroll, S. R., Garba, I., Figueroa-Rodríguez, O. L., Holbrook, J., Lovett, R., Materechera, S., Parsons, M., Raseroka, K., Rodriguez-Lonebear, D., Rowe, J., Sara, R., Walker, J. D., Anderson, J. & Hudson, M. (2020). The CARE Principles for indigenous data governance. Data science journal, 19(43), 1-12. https://doi.org/10.5334/dsj-2020-043
Chatfield, S. L. (2020). Recommendations for secondary analysis of qualitative data. The qualitative report, 25(3), 833-842. https://doi.org/10.46743/2160-3715/2020.4092
Chauvette, A., Schick-Makaroff, K. & Molzahn, A. E. (2019). Open data in qualitative research. International journal of qualitative methods, 18, 2019. https://doi.org/10.1177/1609406918823863
Childs, S., Loma, E., Mcleod, J. & Cook, G. A. (2014). Opening research data: issues and opportunities. Records management journal, 24(2), 142-162. https://doi.org/10.1108/RMJ-01-2014-0005
Curty, R. G., Crowston, K., Specht, A., Grant, Bruce W. & Dalton, E.D. (2017). Attitudes and norms affecting scientists’ data reuse. PLOS ONE, 12(12), 1-22. https://doi.org/10.1371/journal.pone.0189288
Danciu, J., Cowan, J. D., Basford, M., Wang, X., Saip, A., Osgood, S., Shirey-Rice, S., Kirby, J. & Harris, J. A. (2014). Secondary use of clinical data: the Vanderbilt approach. Journal of biomedical informatics, 52, 28-35. http://dx.doi.org/10.1016/j.jbi.2014.02.003
Fecher, B., Friesike, S. & Hebing, M. (2015). What drives academic data sharing? PLOS ONE, 10(2), 1-25. https://doi.org/10.1371/journal.pone.0118053
Federer, L., Lu, Y., Joubert; D. J., Welsh; J. & Brandys, B. (2015). Biomedical data sharing and reuse: attitudes and practices of clinical and scientific research staff. PLOS ONE, 10(6), 1-17. https://doi.org/10.1371/journal.pone.0129506
Gregory, K. M. (2020). A dataset describing data discovery and reuse practices in research. Scientific data, 7(232), 1-11. https://doi.org/10.1038/s41597-020-0569-5
Gregory, K. M., Cousijn, H., Groth, P., Scharnhorst, A. & Wyatt, S. (2020) Understanding data search as a socio-technical practice. Journal of information science, 46(4), 459-475. https://doi.org/10.1177/0165551519837182
He, L. & Nahar, V. (2016). Reuse of scientific data in academic publications: an investigation of Dryad Digital Repository. Aslib journal of information management, 689(4), 1-23. http://dx.doi.org/10.1108/AJIM-01-2016-0008https://doi.org/10.1038/sdata.2018.15
Imker, H. J., Luong, H., Mischo W. H., Schlembach, M. C. & Wiley, C. (2021). An examination of data reuse practices within highly cited articles of faculty at a research university. The journal of academic librarianship, 47, 1-11. https://doi.org/10.1016/j.acalib.2021.102369
Irwin, S. & Winterton, M. (2012). Qualitative secondary analysis and social explanation. Sociological research online, 17(2), 1-12. https://doi.org/10.5153/sro.2626
Joo, S., Kim, S. & Kim, Y. (2017). An exploratory study of health scientists’ data reuse behaviors: examining attitudinal, social, and resource factors. Aslib Journal of information management, 69(4), 1-29. https://doi.org/10.1108/AJIM-12-2016-0201
Joo, Y. K. & Kim, Y. (2017). Engineering researchers’ data reuse behaviours: a structural equation modelling approach. The electronic library, 35(6). https://doi.org/10.1108/EL-08-2016-0163
Kim, Y. & Nah, S. (2018). Internet researchers’ data sharing behaviors: an integration of data reuse experience, attitudinal beliefs, social norms, and resource factors. Online information review, 42(1), 1-31. https://doi.org/10.1108/OIR-10-2016-0313
Krämer, T., Papenmeier, A., Carevic, Z., Kern, D. & Mathiak, B. (2021). Data-seeking behaviour in the Social Sciences. International journal on digital libraries, 22, 175-195. https://doi.org/10.1007/s00799-021-00303-0
Pãnescu, A. & Manta, V. (2018). Smart contracts for research data rights management over the Ethereum blockchain network. Science & technology libraries, 1-12. https://doi.org/10.1080/0194262X.2018.1474838
Park, H. & Wolfram, D. (2017). An examination of research data sharing and re-use: implications for data citation practice. Scientometrics, 111, 443-461. https://doi.org/10.1007/s11192-017-2240-2
Park, M. S. & Park, H. (2019). An examination of metadata practices for research data reuse: Characteristics and predictive probability of metadata elements. Malaysian Journal of library & information science, 24(3), 61-75. https://doi.org/10.22452/mjlis.vol24no3.4
Perrier, L., Blondal, E. & Macdonald, H. (2020). The views, perspectives, and experiences of academic researchers with data sharing and reuse: a meta-synthesis. PLOS ONE, 15(2), 1-21. https://doi.org/10.1371/journal.pone.0229182
Poole, A. H. (2016). The conceptual landscape of digital curation. Journal of documentation, 72(5), 961-986. http://dx.doi.org/10.1108/JD-10-2015-0123
Sinaci, A. A., Núñez-Benjumea, F. J., Gencturk, M., Jauer, M., Deserno, T., Chronaki, C., Cangioli, G., Cavero-Barca, C., Rodríguez-Pérez, J. M., Pérez-Pérez, M. M., Erturkmen, G. B. L., Hernández-Pérez, T., Méndez-Rodríguez, E & Parra-Calderón, C. (2020). From raw data to FAIR Data: the FAIRification workflow for health research. Methods of information in medicine, 59, e21–e32. https://doi.org/10.1055/s-0040-1713684
Tenopir, C., Christian, L., Allard, S. & Borycz, J. (2018). Research data sharing: practices and attitudes of geophysicists. Earth and space science, 5, 891-902. https://doi.org/10.1029/2018EA000461
Thanos, C. (2017). Research data reusability: conceptual foundations, barriers and enabling. Technologies. Publications, 5(2), 1-19. https://doi.org/10.3390/publications5010002
Van de Sandt, S., Dallmeier-Tiessen, S., Lavasa, A. & Petras, V. (2019). The definition of reuse. Data science journal, 18(22), 1-19. https://doi.10.5334/dsj-2019-022
Womack, R. P. (2015). Research Data in Core Journals in Biology, Chemistry, Mathematics, and Physics. PLOS ONE, 10(2), 1-22. https://doi.org/10.1371/journal.pone.0143460
Yoon, A. (2017). Data reusers' trust development. Journal of the Association for Information Science and technology, 68(4), 946-956. https://doi.org/10.1002/asi.23730
Yoon, A. & Lee, Y. Y. (2019). Factors of trust in data reuse. Online information review, 43(7), 1245-1262. https://doi.org/10.1108/OIR-01-2019-0014
Zuiderwijka, A. & Spiers, H. (2019). Sharing and re-using open data: a case study of motivations in astrophysics. International journal of information management,49, 228-241. https://doi.org/10.1016/j.ijinfomgt.2019.05.024
Apêndice B – Referências dos 10 artigos mais citados nas referências do portfólio
Ajzen, I. (1991). The theory of planned behavior. Organizational behavior and human decision processes, 50(2), 179-211.
Anderson, J. C. & Gerbing, D. W. (1988). Structural equation modeling in practice: a review and recommended two-step approach. Psychological bulletin, 103(3), 411-423.
Davis, F. D. (1989). Perceived usefulness, perceived ease of use, and user acceptance of information technology. MIS quarterly, 13(3), 319-340.
Davis, F. D., Bagozzi, R. P. & Warshaw, P. R. (1989). User acceptance of computer technology: a comparison of two theoretical models. Management science, 35(8), 982-1003.
Eisenhardt, K. M. (1989). Building theories from case study research. The academy of management review, 14(4), 532-550.
Harris, P. A., Taylor, R.; Thielke, R., Payne, J., Gonzalez, N. & Conde, J. G. (2009). Research electronic data capture (REDCap): a metadata-driven methodology and workflow process for providing translational research informatics support. Journal of biomedical informatics, 42(2), 377–381. https://doi.org/10.1016/j.jbi.2008.08.010
Mayer, R. C., Davis, J. H. & Schoorman, F. D. (1995). An integrative model of organizational trust. The academy of management review, 20(3), 709-734.
Podsakoff, P. M., MacKenzie, S. B., Lee, J.-Y. & Podsakoff, N. P. (2003). Common method biases in behavioral research: A critical review of the literature and recommended remedies. Journal of applied psychology, 88(5), 879–903.
Ryan, R. M. & El, D. (2000). Intrinsic and extrinsic motivations: classic definitions and new directions. Contemporary educational psychology, 25(1), 54-67.
Venkatesh, V., Morris, M. G., Davis, G. B. & Davis, F. D. (2003). User acceptance of information technology: toward a unified view. MIS quarterly, 27(3), 425-478.
Notas
Recepción: 15 Febrero 2023
Aprobación: 10 Junio 2023
Publicación: 01 Abril 2024