Mineração de texto usando arquitetura da informação e ontologia como método para auxílio de auditoria em documentos digitais

Gorayeb, Diana Maria da Camara

Use este identificador para citar ou linkar para este item: http://repositorio.unb.br/handle/10482/53780

Arquivos associados a este item:

Arquivo	Tamanho	Formato
DianaMariaDaCamaraGorayeb_TESE.pdf	13,63 MB	Adobe PDF	Visualizar/Abrir

Título:	Mineração de texto usando arquitetura da informação e ontologia como método para auxílio de auditoria em documentos digitais
Autor(es):	Gorayeb, Diana Maria da Camara
Orientador(es):	Duque, Cláudio Gottschalg
Assunto:	Arquitetura da informação Sistema de organização do conhecimento Ontologia Mineração de texto
Data de publicação:	28-Jan-2026
Data de defesa:	3-Dez-2025
Referência:	GORAYEB, Diana Maria da Camara. Mineração de texto usando arquitetura da informação e ontologia como método para auxílio de auditoria em documentos digitais. 2025. 201 f., il. Tese (Doutorado em Ciência da Informação) — Universidade de Brasília, Brasília, 2025.
Resumo:	Este trabalho, cujo objetivo geral é auxiliar o processo de auditoria em Documentos Fiscais Eletrônicos por meio da elaboração de um modelo de ontologia a partir da Arquitetura da Informação e da Mineração de Texto para validar a informação de descrição e venda do produto, se configura como uma pesquisa na área da Ciência da Informação. No que tange aos objetivos específicos, delimitou-se em: Identificar possíveis requisitos de uma Arquitetura da Informação para a Mineração de Texto em Notas Fiscais de Consumidor Eletrônicas e Notas Fiscais Eletrônicas no modelo de ontologia para o produto cerveja; Definir as principais informações extraídas do produto quando aplicada à Mineração de Texto nas Notas Fiscais; Descrever a relevância dos sistemas de organização do conhecimento, especificamente, da ontologia para os processos de organização e recuperação da informação. Apresenta como base teórica o enfoque nos conceitos e nas categorias de: Sistemas de Organização do Conhecimento; Arquitetura da Informação; e Ontologia acompanhados de técnicas aplicadas da área da Ciência da Computação, como: Processamento de Linguagem Natural; Aprendizado de Máquina; Mineração de Dados e Mineração de Texto; e proposta de Metadados. O método de procedimento da pesquisa é o Estruturalismo; quanto à natureza, se assenta como uma pesquisa aplicada; considerando a finalidade da pesquisa, se enquadra na pesquisa descritiva e exploratória; no tocante à abordagem do problema, a pesquisa se apresenta como pesquisa quantitativa; em relação aos procedimentos técnicos, é uma pesquisa bibliográfica e documental, cujos dados provêm de arquivos disponibilizados pela Secretaria de Fazenda do Estado do Amazonas por meio de uma amostra de dados em arquivo .csv, tipo texto, do período de 01/02/2023 a 31/05/2023, contendo transações de Notas Fiscais de Consumidor Eletrônicas e Notas Fiscais Eletrônicas, selecionadas a partir da Nomenclatura Comum do Mercosul para o produto cerveja. Para a elaboração da ontologia, o conhecimento será um conjunto de padrões cuja formulação pode envolver e relacionar dados e informações, cuja lógica permite a produção de regras lógicas a partir das inferências para criação de modelos, representação da informação e extração de conhecimento. A modelagem da informação, o fluxo informacional, o mapeamento da recuperação e a apresentação dos resultados na perspectiva dos processos de negócio e da necessidade do usuário são alguns temas explorados neste trabalho. Os resultados foram apresentados na forma de respostas às Questões de Competência que retomam consultas no formato DLQueries e identificam corretamente o produto interpretando e compondo elementos em quantidade e qualidade suficiente para sua identificação e utilização em diversas áreas quando da auditoria em documentos digitais, além da entrega de Repositório, no formato JSON, planejado como um artefato tecnológico incorporado à interdisciplinariedade da Ciência da Informação.
Abstract:	This work, whose general objective is to assist the audit process in Electronic Invoice Documents through the development of an ontology model based on Information Architecture and Text Mining to validate the information of a product’s description and sale, is configured as research in the field of Information Science. Regarding the specific objectives, it was defined as: Identify possible requirements of an Information Architecture for Text Mining in Consumer Electronic Invoices and Electronic Invoices in the ontology model for the product beer; Define the main information extracted from the product when Text Mining is applied in the Invoices; Describe the relevance of knowledge organization systems, specifically, of ontology for the processes of organization and retrieval of information. It presents as theoretical basis the focus on the concepts and categories of: Knowledge Organization Systems; Information Architecture; and Ontology accompanied by applied techniques from the field of Computer Science, such as: Natural Language Processing; Machine Learning; Data Mining and Text Mining; and Metadata. The research procedure method is Structuralism; regarding its nature, it is classified as applied research; considering the purpose of the research, it fits into descriptive and exploratory research; regarding the approach to the problem, the research is presented as quantitative research; in relation to technical procedures, it is bibliographic and documentary research, whose data comes from files made available by the Department of Finance of the State of Amazonas through a sample of data in .csv file, text type, from the period of 02/01/2023 to 05/31/2023, containing transactions of Consumer Electronic Invoices and Electronic Invoices, selected from the Common Nomenclature of the Southern Common Market for the product beer. For the elaboration of the ontology, the knowledge will be a pattern or a set of patterns whose formulation may involve and relate data and information, whose logic allows the production of logical rules from inferences for the creation of models, representation of information, and extraction of knowledge. Information modeling, information flow, retrieval mapping, and the presentation of results from the perspective of business processes and user needs are some of the themes explored in this work. The results were presented in the form of answers to Competency Questions that revisit queries in DLQueries format and correctly identify the product by interpreting and composing elements in sufficient quantity and quality for its identification and use in various areas when auditing digital documents, in addition to the delivery of a Repository, in JSON format, planned as a technological artifact incorporated into the interdisciplinarity of Information Science.
Unidade Acadêmica:	Faculdade de Ciência da Informação (FCI)
Informações adicionais:	Tese (doutorado) — Universidade de Brasília, Faculdade de Ciência da Informação, Programa de Pós-Graduação em Ciência da Informação, 2025.
Programa de pós-graduação:	Programa de Pós-Graduação em Ciência da Informação
Licença:	A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
Aparece nas coleções:	Teses, dissertações e produtos pós-doutorado

Mostrar registro completo do item Visualizar estatísticas