Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/52574
Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
2025_AngelloCassioVasconcelosOliveira_DISSERT.pdf2,25 MBAdobe PDFVisualizar/Abrir
Título: Detection of obfuscated LOLBins using machine learning and NLP techniques
Autor(es): Oliveira, Ângello Cássio Vasconcelos
Orientador(es): Café, Daniel Chaves
Assunto: Segurança cibernética
Inteligência cibernética
Processamento de linguagem natural (NLP)
Aprendizado de máquina
Data de publicação: 9-Out-2025
Referência: OLIVEIRA, Ângello Cássio Vasconcelos. Detection of obfuscated LOLBins using machine learning and NLP techniques. 2025. 22 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2025.
Resumo: O uso crescente de Living Off The Land Binaries (LOLBins) por grupos de Advanced Persistent Threat (APT) apresenta desafios significativos aos mecanismos de detecção tradicionais, pois essas técnicas exploram binários legítimos do sistema para executar atividades maliciosas. Este estudo avança o campo explorando a classificação de LOLBins, tanto em suas formas simples quanto ofuscadas, usando técnicas de aprendizado de máquina (ML) e processamento de linguagem natural (NLP). Com base em trabalhos anteriores, esta pesquisa incorpora métodos de normalização aprimorados e expande o conjunto de dados com comandos ofuscados, permitindo uma avaliação mais abrangente. Por meio de experimentação sistemática, combinações de modelos de ML, incluindo Random Forest, Redes Neurais e Árvores de Decisão, foram testadas juntamente com métodos de NLP, como Bag-of-Words (BoW), TF-IDF e Doc2Vec. Algoritmos de balanceamento, incluindo Random Oversampling (ROS) e SMOTE, foram empregados para lidar com o desequilíbrio do conjunto de dados. Os resultados indicam que o Doc2Vec, emparelhado com técnicas de balanceamento robustas e modelos de ML otimizados, apresentou o melhor desempenho, alcançando alta precisão e pontuações de Coeficiente de Correlação de Matthews (MCC). O estudo também se aprofunda nos desafios de detectar LOLBins ofuscados. Ao incorporar várias técnicas de ofuscação no conjunto de dados e empregar novas funções de normalização para desofuscar comandos, a pesquisa avalia o impacto das estratégias de pré-processamento na precisão da detecção. Embora a adição de dados ofuscados tenha expandido o conjunto de dados significativamente, também destacou as compensações entre a viabilidade computacional e o desempenho da classificação. Este trabalho contribui para o campo da inteligência cibernética ao apresentar uma estrutura de detecção que aborda as táticas em evolução dos adversários. Ele ressalta a importância de combinar técnicas avançadas de PNL, pré-processamento eficaz e conjuntos de dados balanceados para melhorar as capacidades de detecção. As descobertas preparam o cenário para pesquisas futuras sobre métodos de normalização mais sofisticados e soluções escaláveis para lidar com o cenário dinâmico de ameaças à segurança cibernética.
Abstract: The increasing use of Living Off The Land Binaries (LOLBins) by Advanced Persistent Threat (APT) groups presents significant challenges to traditional detection mechanisms, as these techniques exploit legitimate system binaries to execute malicious activities. This study advances the field by exploring the classification of LOLBins, both in their plain and obfuscated forms, using machine learning (ML) and natural language processing (NLP) techniques. Building upon previous work, this research incorporates enhanced normalization methods and expands the dataset with obfuscated commands, enabling a more comprehensive evaluation. Through systematic experimentation, combinations of ML models, including Random Forest, Neural Networks, and Decision Trees, were tested alongside NLP methods such as Bag-of-Words (BoW), TFIDF, and Doc2Vec. Balancing algorithms, including Random Oversampling (ROS) and SMOTE, were employed to address dataset imbalance, Results indicate that Doc2Vec, paired with robust balancing techniques and optimized ML models, delivered the best performance, achieving high accuracy and Matthews Correlation Coefficient (MCC) scores. The study also delves into the challenges of detecting obfuscated LOLBins. By incorporating various obfuscation techniques into the dataset and employing new normalization functions to deobfuscate commands, the research evaluates the impact of preprocessing strategies on detection accuracy. While the addition of obfuscated data expanded the dataset significantly, it also highlighted trade-offs between computational feasibility and classification performance. This work contributes to the field of cyber intelligence by presenting a detection framework that addresses the evolving tactics of adversaries. It underscores the importance of combining advanced NLP techniques, effective preprocessing, and balanced datasets to improve detection capabilities. The findings set the stage for future research into more sophisticated normalization methods and scalable solutions to tackle the dynamic landscape of cybersecurity threats.
Unidade Acadêmica: Faculdade de Tecnologia (FT)
Departamento de Engenharia Elétrica (FT ENE)
Informações adicionais: Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação em Engenharia Elétrica, 2025.
Programa de pós-graduação: Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.