Skip navigation
Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/54215
Arquivos associados a este item:
Arquivo TamanhoFormato 
TaynaraDeJesusCarvalhoSiqueira_DISSERT.pdf1,99 MBAdobe PDFVisualizar/Abrir
Título: Detecção de fatores de risco para doenças cardíacas a partir de prontuários eletrônicos, usando técnicas avançadas de processamento de linguagem natural
Autor(es): Siqueira, Taynara de Jesus Carvalho
Orientador(es): Silva, Nilton Correia da
Assunto: Linguagem natural - processamento
Extração de informações
Fatores de risco
Doenças cardiovasculares
Mineração de texto
Prontuário médico
Data de publicação: 9-Mar-2026
Referência: SIQUEIRA, Taynara de Jesus Carvalho. Detecção de fatores de risco para doenças cardíacas a partir de prontuários eletrônicos, usando técnicas avançadas de processamento de linguagem natural. 2025. 55 f. Dissertação (Mestrado em Engenharia Biomédica) — Universidade de Brasília, Brasília, 2025.
Resumo: Doenças cardiovasculares são uma das principais causas de mortalidade global, destacando-se pela sua prevalência e impacto significativo na saúde pública. No entanto, é importante salientar que, na maioria dos casos, essas condições podem ser prevenidas com a identificação e gerenciamento adequado dos fatores de risco associados. Entre esses fatores, destacam-se o tabagismo, hipertensão arterial, diabetes, obesidade, sedentarismo e alimentação inadequada. A utilização de prontuários eletrônicos para identificar esses fatores de risco pode ajudar na intervenção precoce, permitindo a análise detalhada do histórico de saúde do paciente, incluindo histórico familiar de doenças cardiovasculares, medições de pressão arterial, níveis de colesterol, hábitos de vida e outros indicadores de saúde. Com estas informações em mãos, profissionais de saúde podem desenvolver planos de intervenção personalizados, focados na modificação de comportamentos de risco e na implementação de estratégias preventivas direcionadas, de maneira mais fácil e automatizada.
Abstract: Cardiovascular diseases (CVDs) are the leading cause of mortality worldwide, and the early identification of risk factors is essential to reduce their incidence. However, such information is often recorded as unstructured free text in electronic health records, which hinders automated extraction. This dissertation proposes and compares two approaches for identifying cardiovascular risk factors: (1) a traditional pipeline based on Named Entity Recognition (NER) with negation classification, and (2) a Large Language Model (LLM)-based approach using the DeepSeek-14B model with few-shot prompting. The methods were applied to a set of clinical records annotated with five risk factors: hypertension, diabetes, obesity, dyslipidemia, and smoking. The DeepSeek model achieved superior overall F1-score and sensitivity, particularly for the “Smoking” class (F1 = 0.79). In contrast, the NER pipeline achieved higher precision for classes such as “Obesity” (0.98) and “Dyslipidemia” (0.95). The results highlight the complementary nature of the evaluated approaches: while the traditional pipeline excels in efficiency and computational simplicity, LLMs demonstrate greater robustness in the semantic interpretation of clinical texts. As future work, we propose applying instruction tuning to the DeepSeek model and developing automated mechanisms for calculating cardiovascular risk scores, such as the Framingham Risk Score.
Unidade Acadêmica: Faculdade de Ciências e Tecnologias em Engenharia (FCTE) – Campus UnB Gama
Informações adicionais: Dissertação (Mestrado em Engenharia Biomédica) — Universidade de Brasília, Faculdade de Ciências e Tecnologias em Engenharia (FCTE) - Campus Gama, Programa de pós-graduação em Engenharia Biomédica, 2025.
Programa de pós-graduação: Programa de Pós-Graduação em Engenharia Biomédica
Licença: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas



Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.