O desafio da deduplicação de publicações: criação e avaliação de um benchmark

Carregando...
Imagem de Miniatura

Título da Revista

ISSN da Revista

Título de Volume

Instituição

Universidade Federal do ABC; Centro Federal de Educação Tecnológica de Minas Gerais; Universidade Federal de Santa Catarina; Instituto Brasileiro de Informação em Ciência e Tecnologia
Citar

Resumo

O objetivo deste artigo é apresentar um conjunto de 10 regras usadas para a criação de um benchmark e sua avaliação usando casamentro aproximado baseado na similaridade de Levenshtein. A finalidade prática é de trazer insumos para investigar o desafio da deduplicação de publicações. Após avaliação, algumas regras apresentaram desafios, ressaltando a complexidade da deduplicação e a necessidade por estratégias mais sofisticadas à de casamento aproximado. A análise das publicações não deduplicadas revela uma queda acentuada com diferentes valores de similaridade, enfatizando a necessidade de ajustar parâmetros conforme o contexto. Este trabalho caminha na direção da definição de estratégias eficazes e abrangentes para a deduplicação de artigos científicos.

Descrição

Citação

MENA-CHALCO, Jesus Pascual et al.O desafio da deduplicação de publicações: criação e avaliação de um benchmark. In: ENCONTRO BRASILEIRO DE BIBLIOMETRIA E CIENTOMETRIA – EBBC, 9., 2024, Brasília. Anais [...] Brasília, 2024. p. 1-8. DOI: https://doi.org/10.22477/ix.ebbc.411. Disponível em: https://ebbc.inf.br/ojs/index.php/ebbc/article/view/411. Acesso em: 9 ago. 2024.

Arquivos

1

Seu navegador não é compatível com o visualizador de PDF.Baixar o PDF.

Identificador dARK

Avaliação

Revisão

Suplementado Por

Referenciado Por