O desafio da deduplicação de publicações: criação e avaliação de um benchmark

Número de edição do periódico9pt_BR
AutorMena-Chalco, Jesús Pascual
AutorDias, Thiago Magela Rodrigues
AutorCanto, Fabio Lorensi do
AutorMoreira, Tales Henrique José
AutorCarvalho Segundo, Washington Luís Ribeiro de
Data de Acesso2024-08-19T17:42:07Z
Data disponível2024-08-19T17:42:07Z
Ano de publicação2024-07-23
AbstractN/Apt_BR
ResumoO objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.pt_BR
CitaçãoMENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024.pt_BR
DOI (Identificador de Objeto Digital)https://doi.org/10.22477/ix.ebbc.411pt_BR
Identificador ISSN2675-5939pt_BR
URIhttp://ridi.ibict.br/handle/123456789/1323
Idiomaporpt_BR
InstituiçãoUniversidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e Tecnologiapt_BR
PaísBrasilpt_BR
InsituiçãoUFABC; CEFET-MG; UFSC; Ibictpt_BR
Título do periódicoEncontro Brasileiro de Bibliometria e Cientometria – EBBCpt_BR
Tipo de acessoAcesso Abertopt_BR
Palavra ChaveDeduplicaçãopt_BR
Palavra ChavePublicações científicaspt_BR
Palavra ChaveBenchmarkpt_BR
Palavra ChaveRegraspt_BR
Área de conhecimento CNPqCNPQ::CIENCIAS SOCIAIS APLICADAS::CIENCIA DA INFORMACAOpt_BR
TítuloO desafio da deduplicação de publicações: criação e avaliação de um benchmarkpt_BR
TipoTrabalho apresentado em eventopt_BR

Arquivos

Pacote original

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
O desafio da deduplicação de publicações.pdf
Tamanho:
662.89 KB
Formato:
Adobe Portable Document Format

Licença do pacote

Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
license.txt
Tamanho:
1.82 KB
Formato:
Item-specific license agreed upon to submission
Descrição: