http://repositorio.unb.br/handle/10482/54215| Arquivo | Tamanho | Formato | |
|---|---|---|---|
| TaynaraDeJesusCarvalhoSiqueira_DISSERT.pdf | 1,99 MB | Adobe PDF | Visualizar/Abrir |
| Título: | Detecção de fatores de risco para doenças cardíacas a partir de prontuários eletrônicos, usando técnicas avançadas de processamento de linguagem natural |
| Autor(es): | Siqueira, Taynara de Jesus Carvalho |
| Orientador(es): | Silva, Nilton Correia da |
| Assunto: | Linguagem natural - processamento Extração de informações Fatores de risco Doenças cardiovasculares Mineração de texto Prontuário médico |
| Data de publicação: | 9-Mar-2026 |
| Data de defesa: | 20-Mai-2025 |
| Referência: | SIQUEIRA, Taynara de Jesus Carvalho. Detecção de fatores de risco para doenças cardíacas a partir de prontuários eletrônicos, usando técnicas avançadas de processamento de linguagem natural. 2025. 55 f. Dissertação (Mestrado em Engenharia Biomédica) — Universidade de Brasília, Brasília, 2025. |
| Resumo: | Doenças cardiovasculares são uma das principais causas de mortalidade global, destacando-se pela sua prevalência e impacto significativo na saúde pública. No entanto, é importante salientar que, na maioria dos casos, essas condições podem ser prevenidas com a identificação e gerenciamento adequado dos fatores de risco associados. Entre esses fatores, destacam-se o tabagismo, hipertensão arterial, diabetes, obesidade, sedentarismo e alimentação inadequada. A utilização de prontuários eletrônicos para identificar esses fatores de risco pode ajudar na intervenção precoce, permitindo a análise detalhada do histórico de saúde do paciente, incluindo histórico familiar de doenças cardiovasculares, medições de pressão arterial, níveis de colesterol, hábitos de vida e outros indicadores de saúde. Com estas informações em mãos, profissionais de saúde podem desenvolver planos de intervenção personalizados, focados na modificação de comportamentos de risco e na implementação de estratégias preventivas direcionadas, de maneira mais fácil e automatizada. |
| Abstract: | Cardiovascular diseases (CVDs) are the leading cause of mortality worldwide, and the early identification of risk factors is essential to reduce their incidence. However, such information is often recorded as unstructured free text in electronic health records, which hinders automated extraction. This dissertation proposes and compares two approaches for identifying cardiovascular risk factors: (1) a traditional pipeline based on Named Entity Recognition (NER) with negation classification, and (2) a Large Language Model (LLM)-based approach using the DeepSeek-14B model with few-shot prompting. The methods were applied to a set of clinical records annotated with five risk factors: hypertension, diabetes, obesity, dyslipidemia, and smoking. The DeepSeek model achieved superior overall F1-score and sensitivity, particularly for the “Smoking” class (F1 = 0.79). In contrast, the NER pipeline achieved higher precision for classes such as “Obesity” (0.98) and “Dyslipidemia” (0.95). The results highlight the complementary nature of the evaluated approaches: while the traditional pipeline excels in efficiency and computational simplicity, LLMs demonstrate greater robustness in the semantic interpretation of clinical texts. As future work, we propose applying instruction tuning to the DeepSeek model and developing automated mechanisms for calculating cardiovascular risk scores, such as the Framingham Risk Score. |
| Unidade Acadêmica: | Faculdade de Ciências e Tecnologias em Engenharia (FCTE) – Campus UnB Gama |
| Informações adicionais: | Dissertação (Mestrado em Engenharia Biomédica) — Universidade de Brasília, Faculdade de Ciências e Tecnologias em Engenharia (FCTE) - Campus Gama, Programa de pós-graduação em Engenharia Biomédica, 2025. |
| Programa de pós-graduação: | Programa de Pós-Graduação em Engenharia Biomédica |
| Licença: | A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data. |
| Aparece nas coleções: | Teses, dissertações e produtos pós-doutorado |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.