Detecção de prompt injection em modelos de linguagem

Gonçalves, Júlia Jamile Oliveira

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/54704

Arquivos associados a este item:

Arquivo	Tamanho	Formato
JuliaJamileOliveiraGoncalves_DISSERT.pdf	6,02 MB	Adobe PDF	Visualizar/Abrir

Título:	Detecção de prompt injection em modelos de linguagem
Autor(es):	Gonçalves, Júlia Jamile Oliveira
Orientador(es):	Amvame-Nze, Georges Daniel
Assunto:	Inteligência artificial Modelos de linguagem Aprendizado de máquina
Data de publicação:	10-Jun-2026
Data de defesa:	29-Jan-2026
Referência:	GONÇALVES, Júlia Jamile Oliveira. Detecção de prompt injection em modelos de linguagem. 2026. 63 f., il. Dissertação (Mestrado Profissional em Engenharia Elétrica) — Universidade de Brasília, Brasília, 2026.
Resumo:	Os Modelos de Linguagem de Grande Escala (LLMs) são amplamente utilizados na indústria e na academia para tarefas diversas, como assistentes virtuais e automação de processos. No entanto, essas tecnologias apresentam vulnerabilidades de segurança, como ataques de Prompt Injection, que podem comprometer a integridade e confiabilidade dos modelos. Este estudo propõe uma abordagem baseada em aprendizado de máquina para detectar ataques de Prompt Injection e comparar sua eficácia com modelos tradicionais. Experimentos foram conduzidos utilizando modelos como BERT, CountVectorizer e TfidfVectorizer, demonstrando que técnicas de Oversampling aprimoram a detecção dessas ameaças.
Abstract:	Large Language Models (LLMs) are widely utilized in industry and academia for diverse tasks, such asvirtual assistants and process automation. However, these technologies exhibit security vulnerabilities,including Prompt Injection attacks, which can compromise model integrity and reliability. This study pro poses a machine learning-based approach to detect Prompt Injection attacks and compare its effectivenessagainst traditional models.A bilingual dataset containing legitimate and malicious prompts, encompassing various Prompt Injec tion attack variations, was constructed. The dataset was evaluated under three distinct scenarios: originalivimbalanced distribution, undersampling, and oversampling. Multiple machine learning pipelines were trai ned, combining text vectorization techniques (CountVectorizer and TF-IDF) with traditional classifiers,alongside BERT-based model training. Additionally, LLMs were employed for comparative behavioralanalysis against input prompts.Experimental results demonstrated that oversampling strategies consistently produce superior perfor mance, with significant false negative reduction. TF-IDF-based pipelines combined with linear classifiers,as well as the BERT model, achieved accuracy and F1-score values exceeding 97%, evidencing high ef fectiveness in attack detection. Confusion matrix analysis reinforced the importance of class balancing insecurity scenarios, where attack non-detection can have critical impacts.The results indicate that effective Prompt Injection detection mechanisms can be implemented evenin computationally limited environments, contributing to enhanced security and reliability of LLM-basedapplications.
Unidade Acadêmica:	Faculdade de Tecnologia (FT) Departamento de Engenharia Elétrica (FT ENE)
Informações adicionais:	Dissertação (mestrado) — Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, Programa de Pós-Graduação Profissional em Engenharia Elétrica, 2026.
Programa de pós-graduação:	Programa de Pós-Graduação em Engenharia Elétrica, Mestrado Profissional
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas