Skip navigation
Please use this identifier to cite or link to this item: http://repositorio.unb.br/handle/10482/54215
Files in This Item:
File SizeFormat 
TaynaraDeJesusCarvalhoSiqueira_DISSERT.pdf1,99 MBAdobe PDFView/Open
Title: Detecção de fatores de risco para doenças cardíacas a partir de prontuários eletrônicos, usando técnicas avançadas de processamento de linguagem natural
Authors: Siqueira, Taynara de Jesus Carvalho
Orientador(es):: Silva, Nilton Correia da
Assunto:: Linguagem natural - processamento
Extração de informações
Fatores de risco
Doenças cardiovasculares
Mineração de texto
Prontuário médico
Issue Date: 9-Mar-2026
Citation: SIQUEIRA, Taynara de Jesus Carvalho. Detecção de fatores de risco para doenças cardíacas a partir de prontuários eletrônicos, usando técnicas avançadas de processamento de linguagem natural. 2025. 55 f. Dissertação (Mestrado em Engenharia Biomédica) — Universidade de Brasília, Brasília, 2025.
Abstract: Doenças cardiovasculares são uma das principais causas de mortalidade global, destacando-se pela sua prevalência e impacto significativo na saúde pública. No entanto, é importante salientar que, na maioria dos casos, essas condições podem ser prevenidas com a identificação e gerenciamento adequado dos fatores de risco associados. Entre esses fatores, destacam-se o tabagismo, hipertensão arterial, diabetes, obesidade, sedentarismo e alimentação inadequada. A utilização de prontuários eletrônicos para identificar esses fatores de risco pode ajudar na intervenção precoce, permitindo a análise detalhada do histórico de saúde do paciente, incluindo histórico familiar de doenças cardiovasculares, medições de pressão arterial, níveis de colesterol, hábitos de vida e outros indicadores de saúde. Com estas informações em mãos, profissionais de saúde podem desenvolver planos de intervenção personalizados, focados na modificação de comportamentos de risco e na implementação de estratégias preventivas direcionadas, de maneira mais fácil e automatizada.
Abstract: Cardiovascular diseases (CVDs) are the leading cause of mortality worldwide, and the early identification of risk factors is essential to reduce their incidence. However, such information is often recorded as unstructured free text in electronic health records, which hinders automated extraction. This dissertation proposes and compares two approaches for identifying cardiovascular risk factors: (1) a traditional pipeline based on Named Entity Recognition (NER) with negation classification, and (2) a Large Language Model (LLM)-based approach using the DeepSeek-14B model with few-shot prompting. The methods were applied to a set of clinical records annotated with five risk factors: hypertension, diabetes, obesity, dyslipidemia, and smoking. The DeepSeek model achieved superior overall F1-score and sensitivity, particularly for the “Smoking” class (F1 = 0.79). In contrast, the NER pipeline achieved higher precision for classes such as “Obesity” (0.98) and “Dyslipidemia” (0.95). The results highlight the complementary nature of the evaluated approaches: while the traditional pipeline excels in efficiency and computational simplicity, LLMs demonstrate greater robustness in the semantic interpretation of clinical texts. As future work, we propose applying instruction tuning to the DeepSeek model and developing automated mechanisms for calculating cardiovascular risk scores, such as the Framingham Risk Score.
metadata.dc.description.unidade: Faculdade de Ciências e Tecnologias em Engenharia (FCTE) – Campus UnB Gama
Description: Dissertação (Mestrado em Engenharia Biomédica) — Universidade de Brasília, Faculdade de Ciências e Tecnologias em Engenharia (FCTE) - Campus Gama, Programa de pós-graduação em Engenharia Biomédica, 2025.
metadata.dc.description.ppg: Programa de Pós-Graduação em Engenharia Biomédica
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Appears in Collections:Teses, dissertações e produtos pós-doutorado

Show full item record " class="statisticsLink btn btn-primary" href="/handle/10482/54215/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.