Framework híbrido com aprendizado de máquina profundo para desambiguação de nomes de autores

Rodrigues, Natan de Souza

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	Ralha, Célia Ghedini	pt_BR
dc.contributor.author	Rodrigues, Natan de Souza	pt_BR
dc.date.accessioned	2025-11-24T16:52:32Z	-
dc.date.available	2025-11-24T16:52:32Z	-
dc.date.issued	2025-11-24	-
dc.date.submitted	2025-08-11	-
dc.identifier.citation	RODRIGUES, Natan de Souza. Framework Híbrido com Aprendizado de Máquina Profundo para Desambiguação de Nomes de Autores. 2025. 141 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/53209	-
dc.description	Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.	pt_BR
dc.description.abstract	A desambigua¸c˜ao de nomes de autores (Author Name Disambiguation – AND) ´e uma tarefa desafiadora em reposit´orios bibliogr´aficos digitais, marcada por ambiguidade nominal, varia¸c˜oes lingu´ısticas e metadados incompletos. Esta tese prop˜oe o framework h´ıbrido ADAN (Automatic Disambiguation Author Name), o qual combina aprendizado de m´aquina profundo com um algoritmo de agrupamento hier´arquico aglomerativo aprimorado por grafos (Graph-enhanced Hierarchical Agglomerative Clustering - GHAC). Utiliza t´ecnicas de Processamento de Linguagem Natural (PLN) com modelos baseados em transformers como SciBERT e MiniLM, e Redes Convolucionais de Grafos (RCG). O framework ADAN foi definido arquiteturalmente com quatro camadas: entrada e pr´eprocessamento, extra¸c˜ao de embeddings e constru¸c˜ao da rede heterogˆenea, aprendizado com RCG e clusteriza¸c˜ao com GHAC. A camada de entrada conta com uma interface gr´afica de usu´ario (Graph User Interface - GUI) que permite carregar os dados, configurar os parˆametros do modelo e visualizar os resultados da tarefa de AND. O framework ADAN ´e configur´avel, possibilitando adapta¸c˜ao a diferentes bases e n´ıveis de complexidade estrutural e semˆantica. Os experimentos foram realizados utilizando trˆes conjuntos de dados comuns na literatura: AMiner-12, DBLP e LAGOS-AND. Em cen´arios com metadados limitados, tal como o AMiner-12, o ADAN apresenta resultados competitivos atingindo m´edia de pF1 de 0,6717 e K-Metric de 0,8981, superando trabalhos de referˆencia em at´e 37,6% em Average Cluster Purity (ACP) e 20,21% em K-Metric. Com o conjunto de dados DBLP, o ADAN apresentou ganhos expressivos e valores estatisticamente significativos segundo as m´edias e intervalos de confian¸ca obtidos, com 33,9% em pF1 e 29,8% em K-Metric e demais m´etricas permanecendo dentro dos intervalos de confian¸ca de 95% inferior e superior. Utilizando o LAGOS-AND, os resultados apresentam B-cubed F1 de 90,8, superando em at´e 21,43% as abordagens anteriores com o mesmo conjunto de dados. Os resultados indicam que o framework ADAN oferece uma solu¸c˜ao eficaz e adapt´avel para a tarefa de AND, apresentando desempenho consistente em cen´arios com alta ambiguidade e diversidade estrutural.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	Framework híbrido com aprendizado de máquina profundo para desambiguação de nomes de autores	pt_BR
dc.type	Tese	pt_BR
dc.subject.keyword	Aprendizado de máquina	pt_BR
dc.subject.keyword	Desambiguação de nomes de autores	pt_BR
dc.subject.keyword	Processamento de linguagem natural (Computação)	pt_BR
dc.subject.keyword	Repositório bibliográfico	pt_BR
dc.subject.keyword	Redes convolucionais de grafos	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	Author Name Disambiguation (AND) is a challenging task in digital bibliographic repositories, marked by name ambiguity, linguistic variations, and incomplete metadata. This thesis proposes the hybrid framework ADAN (Automatic Disambiguation Author Name), which combines deep machine learning with a Graph-enhanced Hierarchical Agglomerative Clustering (GHAC) algorithm. It integrates Natural Language Processing (NLP) techniques using transformer-based models such as SciBERT and MiniLM, along with Graph Convolutional Networks (GCNs). The ADAN framework is architecturally defined with four layers: input and preprocessing, embedding extraction and heterogeneous network construction, learning with GCNs, and clustering with GHAC. The input layer includes a Graphical User Interface (GUI) that allows users to upload data, configure model parameters, and visualize the results of the AND task. The ADAN framework is configurable, allowing for adaptation to datasets with different levels of structural and semantic complexity. Experiments were conducted using three commonly used datasets in the literature: AMiner-12, DBLP, and LAGOS-AND. In scenarios with limited metadata, such as AMiner-12, ADAN presented competitive results with pF1 average of 0,6717 and K-Metric of 0,8981, outperforming the reference works in 37,6% of Average Cluster Purity (ACP) and 20,21% in K-Metric. On the DBLP dataset, ADAN presented significant gains and statistically significant values according to the means and confidence intervals, with 33,9% of pF1 and 29,8% of K-Metric, and other metrics remaining within the lower and upper 95% confidence intervals. Using LAGOS-AND, ADAN achieved a B-cubed F1 of 90.8, outperforming previous approaches by up to 21.43%. These results indicate that the ADAN framework offers an effective and adaptable solution for the AND task, showing consistent performance in scenarios with high ambiguity and structural diversity.	en
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado