| Campo DC | Valor | Idioma |
| dc.contributor.advisor | Ralha, Célia Ghedini | pt_BR |
| dc.contributor.author | Rodrigues, Natan de Souza | pt_BR |
| dc.date.accessioned | 2025-11-24T16:52:32Z | - |
| dc.date.available | 2025-11-24T16:52:32Z | - |
| dc.date.issued | 2025-11-24 | - |
| dc.date.submitted | 2025-08-11 | - |
| dc.identifier.citation | RODRIGUES, Natan de Souza. Framework Híbrido com Aprendizado de Máquina Profundo para Desambiguação de Nomes de Autores. 2025. 141 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.unb.br/handle/10482/53209 | - |
| dc.description | Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025. | pt_BR |
| dc.description.abstract | A desambigua¸c˜ao de nomes de autores (Author Name Disambiguation – AND) ´e uma
tarefa desafiadora em reposit´orios bibliogr´aficos digitais, marcada por ambiguidade nominal, varia¸c˜oes lingu´ısticas e metadados incompletos. Esta tese prop˜oe o framework
h´ıbrido ADAN (Automatic Disambiguation Author Name), o qual combina aprendizado
de m´aquina profundo com um algoritmo de agrupamento hier´arquico aglomerativo aprimorado por grafos (Graph-enhanced Hierarchical Agglomerative Clustering - GHAC). Utiliza t´ecnicas de Processamento de Linguagem Natural (PLN) com modelos baseados em
transformers como SciBERT e MiniLM, e Redes Convolucionais de Grafos (RCG). O
framework ADAN foi definido arquiteturalmente com quatro camadas: entrada e pr´eprocessamento, extra¸c˜ao de embeddings e constru¸c˜ao da rede heterogˆenea, aprendizado
com RCG e clusteriza¸c˜ao com GHAC. A camada de entrada conta com uma interface
gr´afica de usu´ario (Graph User Interface - GUI) que permite carregar os dados, configurar os parˆametros do modelo e visualizar os resultados da tarefa de AND. O framework
ADAN ´e configur´avel, possibilitando adapta¸c˜ao a diferentes bases e n´ıveis de complexidade estrutural e semˆantica. Os experimentos foram realizados utilizando trˆes conjuntos
de dados comuns na literatura: AMiner-12, DBLP e LAGOS-AND. Em cen´arios com
metadados limitados, tal como o AMiner-12, o ADAN apresenta resultados competitivos
atingindo m´edia de pF1 de 0,6717 e K-Metric de 0,8981, superando trabalhos de referˆencia
em at´e 37,6% em Average Cluster Purity (ACP) e 20,21% em K-Metric. Com o conjunto
de dados DBLP, o ADAN apresentou ganhos expressivos e valores estatisticamente significativos segundo as m´edias e intervalos de confian¸ca obtidos, com 33,9% em pF1 e
29,8% em K-Metric e demais m´etricas permanecendo dentro dos intervalos de confian¸ca
de 95% inferior e superior. Utilizando o LAGOS-AND, os resultados apresentam B-cubed
F1 de 90,8, superando em at´e 21,43% as abordagens anteriores com o mesmo conjunto
de dados. Os resultados indicam que o framework ADAN oferece uma solu¸c˜ao eficaz e
adapt´avel para a tarefa de AND, apresentando desempenho consistente em cen´arios com
alta ambiguidade e diversidade estrutural. | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.rights | Acesso Aberto | pt_BR |
| dc.title | Framework híbrido com aprendizado de máquina profundo para desambiguação de nomes de autores | pt_BR |
| dc.type | Tese | pt_BR |
| dc.subject.keyword | Aprendizado de máquina | pt_BR |
| dc.subject.keyword | Desambiguação de nomes de autores | pt_BR |
| dc.subject.keyword | Processamento de linguagem natural (Computação) | pt_BR |
| dc.subject.keyword | Repositório bibliográfico | pt_BR |
| dc.subject.keyword | Redes convolucionais de grafos | pt_BR |
| dc.rights.license | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. | pt_BR |
| dc.description.abstract1 | Author Name Disambiguation (AND) is a challenging task in digital bibliographic repositories, marked by name ambiguity, linguistic variations, and incomplete metadata. This
thesis proposes the hybrid framework ADAN (Automatic Disambiguation Author Name),
which combines deep machine learning with a Graph-enhanced Hierarchical Agglomerative Clustering (GHAC) algorithm. It integrates Natural Language Processing (NLP)
techniques using transformer-based models such as SciBERT and MiniLM, along with
Graph Convolutional Networks (GCNs). The ADAN framework is architecturally defined with four layers: input and preprocessing, embedding extraction and heterogeneous
network construction, learning with GCNs, and clustering with GHAC. The input layer
includes a Graphical User Interface (GUI) that allows users to upload data, configure
model parameters, and visualize the results of the AND task. The ADAN framework
is configurable, allowing for adaptation to datasets with different levels of structural and
semantic complexity. Experiments were conducted using three commonly used datasets in
the literature: AMiner-12, DBLP, and LAGOS-AND. In scenarios with limited metadata,
such as AMiner-12, ADAN presented competitive results with pF1 average of 0,6717 and
K-Metric of 0,8981, outperforming the reference works in 37,6% of Average Cluster Purity
(ACP) and 20,21% in K-Metric. On the DBLP dataset, ADAN presented significant gains
and statistically significant values according to the means and confidence intervals, with
33,9% of pF1 and 29,8% of K-Metric, and other metrics remaining within the lower and
upper 95% confidence intervals. Using LAGOS-AND, ADAN achieved a B-cubed F1 of
90.8, outperforming previous approaches by up to 21.43%. These results indicate that the
ADAN framework offers an effective and adaptable solution for the AND task, showing
consistent performance in scenarios with high ambiguity and structural diversity. | en |
| dc.description.unidade | Instituto de Ciências Exatas (IE) | pt_BR |
| dc.description.unidade | Departamento de Ciência da Computação (IE CIC) | pt_BR |
| dc.description.ppg | Programa de Pós-Graduação em Informática | pt_BR |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado
|