Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53209
Arquivos associados a este item:
Arquivo TamanhoFormato 
NatanDeSouzaRodrigues_TESE.pdf66,98 MBAdobe PDFVisualizar/Abrir
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorRalha, Célia Ghedinipt_BR
dc.contributor.authorRodrigues, Natan de Souzapt_BR
dc.date.accessioned2025-11-24T16:52:32Z-
dc.date.available2025-11-24T16:52:32Z-
dc.date.issued2025-11-24-
dc.date.submitted2025-08-11-
dc.identifier.citationRODRIGUES, Natan de Souza. Framework Híbrido com Aprendizado de Máquina Profundo para Desambiguação de Nomes de Autores. 2025. 141 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.pt_BR
dc.identifier.urihttp://repositorio.unb.br/handle/10482/53209-
dc.descriptionTese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.pt_BR
dc.description.abstractA desambigua¸c˜ao de nomes de autores (Author Name Disambiguation – AND) ´e uma tarefa desafiadora em reposit´orios bibliogr´aficos digitais, marcada por ambiguidade nominal, varia¸c˜oes lingu´ısticas e metadados incompletos. Esta tese prop˜oe o framework h´ıbrido ADAN (Automatic Disambiguation Author Name), o qual combina aprendizado de m´aquina profundo com um algoritmo de agrupamento hier´arquico aglomerativo aprimorado por grafos (Graph-enhanced Hierarchical Agglomerative Clustering - GHAC). Utiliza t´ecnicas de Processamento de Linguagem Natural (PLN) com modelos baseados em transformers como SciBERT e MiniLM, e Redes Convolucionais de Grafos (RCG). O framework ADAN foi definido arquiteturalmente com quatro camadas: entrada e pr´eprocessamento, extra¸c˜ao de embeddings e constru¸c˜ao da rede heterogˆenea, aprendizado com RCG e clusteriza¸c˜ao com GHAC. A camada de entrada conta com uma interface gr´afica de usu´ario (Graph User Interface - GUI) que permite carregar os dados, configurar os parˆametros do modelo e visualizar os resultados da tarefa de AND. O framework ADAN ´e configur´avel, possibilitando adapta¸c˜ao a diferentes bases e n´ıveis de complexidade estrutural e semˆantica. Os experimentos foram realizados utilizando trˆes conjuntos de dados comuns na literatura: AMiner-12, DBLP e LAGOS-AND. Em cen´arios com metadados limitados, tal como o AMiner-12, o ADAN apresenta resultados competitivos atingindo m´edia de pF1 de 0,6717 e K-Metric de 0,8981, superando trabalhos de referˆencia em at´e 37,6% em Average Cluster Purity (ACP) e 20,21% em K-Metric. Com o conjunto de dados DBLP, o ADAN apresentou ganhos expressivos e valores estatisticamente significativos segundo as m´edias e intervalos de confian¸ca obtidos, com 33,9% em pF1 e 29,8% em K-Metric e demais m´etricas permanecendo dentro dos intervalos de confian¸ca de 95% inferior e superior. Utilizando o LAGOS-AND, os resultados apresentam B-cubed F1 de 90,8, superando em at´e 21,43% as abordagens anteriores com o mesmo conjunto de dados. Os resultados indicam que o framework ADAN oferece uma solu¸c˜ao eficaz e adapt´avel para a tarefa de AND, apresentando desempenho consistente em cen´arios com alta ambiguidade e diversidade estrutural.pt_BR
dc.language.isoporpt_BR
dc.rightsAcesso Abertopt_BR
dc.titleFramework híbrido com aprendizado de máquina profundo para desambiguação de nomes de autorespt_BR
dc.typeTesept_BR
dc.subject.keywordAprendizado de máquinapt_BR
dc.subject.keywordDesambiguação de nomes de autorespt_BR
dc.subject.keywordProcessamento de linguagem natural (Computação)pt_BR
dc.subject.keywordRepositório bibliográficopt_BR
dc.subject.keywordRedes convolucionais de grafospt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.pt_BR
dc.description.abstract1Author Name Disambiguation (AND) is a challenging task in digital bibliographic repositories, marked by name ambiguity, linguistic variations, and incomplete metadata. This thesis proposes the hybrid framework ADAN (Automatic Disambiguation Author Name), which combines deep machine learning with a Graph-enhanced Hierarchical Agglomerative Clustering (GHAC) algorithm. It integrates Natural Language Processing (NLP) techniques using transformer-based models such as SciBERT and MiniLM, along with Graph Convolutional Networks (GCNs). The ADAN framework is architecturally defined with four layers: input and preprocessing, embedding extraction and heterogeneous network construction, learning with GCNs, and clustering with GHAC. The input layer includes a Graphical User Interface (GUI) that allows users to upload data, configure model parameters, and visualize the results of the AND task. The ADAN framework is configurable, allowing for adaptation to datasets with different levels of structural and semantic complexity. Experiments were conducted using three commonly used datasets in the literature: AMiner-12, DBLP, and LAGOS-AND. In scenarios with limited metadata, such as AMiner-12, ADAN presented competitive results with pF1 average of 0,6717 and K-Metric of 0,8981, outperforming the reference works in 37,6% of Average Cluster Purity (ACP) and 20,21% in K-Metric. On the DBLP dataset, ADAN presented significant gains and statistically significant values according to the means and confidence intervals, with 33,9% of pF1 and 29,8% of K-Metric, and other metrics remaining within the lower and upper 95% confidence intervals. Using LAGOS-AND, ADAN achieved a B-cubed F1 of 90.8, outperforming previous approaches by up to 21.43%. These results indicate that the ADAN framework offers an effective and adaptable solution for the AND task, showing consistent performance in scenarios with high ambiguity and structural diversity.en
dc.description.unidadeInstituto de Ciências Exatas (IE)pt_BR
dc.description.unidadeDepartamento de Ciência da Computação (IE CIC)pt_BR
dc.description.ppgPrograma de Pós-Graduação em Informáticapt_BR
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro simples do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.