On the effectiveness of the mining Android sandbox approach for malware detection

Costa, Francisco Handrick Tomaz da

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Almeida, Rodrigo Bonifácio de	pt_BR
dc.contributor.author	Costa, Francisco Handrick Tomaz da	pt_BR
dc.date.accessioned	2025-11-24T16:52:26Z	-
dc.date.available	2025-11-24T16:52:26Z	-
dc.date.issued	2025-11-24	-
dc.date.submitted	2025-05-12	-
dc.identifier.citation	COSTA, Francisco Handrick Tomaz da. On the Effectiveness of the Mining Android Sandbox Approach for Malware Detection. 2025. 140 f., il. Tese (Doutorado em Informática) — Universidade de Brasília, Brasília, 2025.	pt_BR
dc.identifier.uri	http://repositorio.unb.br/handle/10482/53198	-
dc.description	Tese (doutorado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, Programa de Pós-Graduação em Informática, 2025.	pt_BR
dc.description.abstract	Devido à popularidade da plataforma Android, aliada à relativa facilidade em aplicar técnicas de reengenharia em aplicativos Android (apps), programadores maliciosos têm se dedicado a explorar formas de ataques que visam monetizar a partir de aplicativos legítimos e violar aspectos de privacidade dos usuários. Esse cenário tem atraído a atenção de pesquisadores para o desenvolvimento de técnicas que possibilitam mitigar algumas falhas de segurança ou estratégias de ataque para aplicativos Android. Uma iniciativa recente, proposta por Jamrozik et al., introduziu o conceito de sandbox mining, uma abordagem em duas fases para melhorar a segurança de aplicativos Android. Na fase de mining (mineração), ferramentas de geração de testes exploram o comportamento do aplicativo monitorando chamadas a APIs sensíveis. A subsequente fase de sandbox restringe qualquer desvio do comportamento observado durante a mineração. Esse método detecta e bloqueia chamadas não autorizadas a APIs sensíveis, melhorando assim a segurança do usuário. Posteriormente, Bao et al. estendeu o trabalho de Jamrozik et al., avaliando a eficácia da abordagem na identificação de comportamentos maliciosos e comparando as capacidades exploratórias de diferentes ferramentas de teste para sandbox mining. Entretanto, seu estudo apresentava limitações: não examinou completamente as contribuições das análises estática e dinâmica para o sandbox mining, além de suas conclusões basearam-se em um conjunto de dados limitado, com representação insuficiente de famílias de malware. Nesta tese, nosso objetivo principal foi avaliar a abordagem de mineração em sandbox através da investigação do papel das análises estática e dinâmica na proposta. Após documentar as contribuições de ambos os métodos, realizamos um segundo estudo para verificar se a solução mantinha desempenho comparável na detecção de malware, quando aplicada a um conjunto de dados mais amplo e diversificado do que os utilizados em estudos anteriores. Os resultados revelaram uma queda significativa na precisão da detecção, com o F1-score diminuindo de 0,90 (em trabalhos anteriores) para 0,54 no conjunto de dados expandidos. Análises posteriores indicaram que essa degradação de desempenho foi causada principalmente por amostras de famílias específicas de malware, evidenciando uma limitação crítica da abordagem. Essa descoberta nos levou a investigar uma solução complementar para abordar a vulnerabilidade identificada. Por fim, em nosso estudo final, propusemos uma abordagem de análise de fluxo de rede aprimorada com aprendizado de máquina. Esse método demonstrou um desempenho superior na classificação de malwares em comparação com a mineração em sandbox, alcançando um F1-score de 0,85 no conjunto de dados diversificado. Notavelmente, os resultados mostraram que famílias de malware com baixas taxas de detecção na mineração em sandbox foram mais efetivamente identificadas por meio da análise de fluxo de rede, uma vez que os modelos de aprendizado de máquina, conseguiram detectar padrões característicos de atividades maliciosas.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.title	On the effectiveness of the mining Android sandbox approach for malware detection	en
dc.title.alternative	Análise da eficácia da abordagem de mineração de sandbox na detecção de malware	pt_BR
dc.type	Tese	pt_BR
dc.subject.keyword	Malwares - detecção	pt_BR
dc.subject.keyword	Mineração em Sandboxes	pt_BR
dc.subject.keyword	Android (Programa de computador)	pt_BR
dc.subject.keyword	Análise estática	pt_BR
dc.subject.keyword	Fluxo de rede	pt_BR
dc.subject.keyword	Análise dinâmica	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.	pt_BR
dc.description.abstract1	Due to the widespread popularity of Android and the relative ease of reverse-engineering Android apps, malicious actors frequently exploit vulnerabilities to monetize legitimate applications and compromise user privacy. This growing threat has driven researchers to develop new techniques for mitigating security flaws and countering attack strategies targeting Android applications. A recent initiative by Jamrozik et al. introduced sandbox mining, a two-phase approach to enhance Android application security. In the mining phase, test generation tools explore app behavior by monitoring calls to sensitive APIs. The subsequent sandbox phase restricts any deviations from the behavior observed during mining. This method detects and blocks unauthorized sensitive API calls, thereby improving user security. Later, Bao et al. extended Jamrozik et al.’s work by evaluating the approach’s effectiveness in identifying malicious behavior and comparing the exploratory capabilities of different testing tools for sandbox mining. However, their study had limitations: it did not fully examine the contributions of static and dynamic analysis to sandbox mining, and its findings relied on a limited dataset with insufficient representation of malware families. In this thesis, our primary objective was to evaluate the sandbox mining approach by analyzing the roles of static and dynamic analysis within its framework. After documenting the contributions of both methods, we conducted a second study to assess whether the solution maintained comparable malware detection performance when applied to a larger and more diverse dataset than those used in prior studies. The results revealed a significant drop in detection accuracy, with the F1-score decreasing from 0.90 (in previous work) to 0.54 on the expanded dataset. Further analysis indicated that this performance degradation was primarily caused by samples from specific malware families, highlighting a critical limitation of the approach. This finding prompted us to investigate a complementary solution to address the identified weakness. Finally, in our final study, we proposed a machine learning (ML)-enhanced network flow analysis approach. This method demonstrated better malware classification performance compared to sandbox mining, achieving a F1-score of 0.85 in the diversified dataset. Notably, the results showed that malware families with low detection rates under sandbox mining were more effectively identified through network flow analysis, as ML models successfully detected characteristic malicious activity patterns.	pt_BR
dc.description.unidade	Instituto de Ciências Exatas (IE)	pt_BR
dc.description.unidade	Departamento de Ciência da Computação (IE CIC)	pt_BR
dc.description.ppg	Programa de Pós-Graduação em Informática	pt_BR
Appears in Collections:	Teses, dissertações e produtos pós-doutorado