Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.unb.br/handle/10482/19890
Files in This Item:
File Description SizeFormat 
2015_LucasBorgesMonteiro.pdf2,44 MBAdobe PDFView/Open
Title: Ligação de entidades : uma nova abordagem para ligação de conceitos concretos com entidades Wiki utilizando modelos de espaço vetorial
Authors: Monteiro, Lucas Borges
Orientador(es):: Weigang, Li
Assunto:: Modelo vetorial
Wikipédia
Ligação de Entidades (LE) - (Informática)
Issue Date: 7-Apr-2016
Citation: MONTEIRO, Lucas Borges. Ligação de entidades: uma nova abordagem para ligação de conceitos concretos com entidades Wiki utilizando modelos de espaço vetorial. 2015. [98] f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2015.
Abstract: Ligação de Entidades (LE) é um importante tópico de pesquisa com diversas aplicações web. Apesar do crescente interesse o foco ainda tem sido a identificação de nomes próprios, isto é, pessoas, organizações, lugares, unidades de medida, etc. O principal desafio aqui é encontrar conceitos concretos (sentenças sem classe de entidade pré-definida) em textos da web conectando-os às respectivas páginas da Wikipédia. Este trabalho apresenta uma nova abordagem para ligar conceitos concretos obtidos de textos em Inglês com entidades Wiki, neste trabalho representadas por páginas da Wikipédia, utilizando classificação gramatical (part-of-speech) para detectar conceitos concretos e Modelos de Espaço Vetorial (MEV) para realizar a desambiguação das entidades Wiki selecionadas da base. A solução, denominada UnBWiki VSM, foi implementada em Java, por meio da IDE Eclipse, com banco de dados MySQL onde a base de entidades foi armazenada. O framework proposto foi ajustado para trabalhar com uma base de Wikilinks, referências para páginas da Wikipédia extraídas de diferentes páginas da web, contendo por volta de 2,8 milhões de entidades e 18 milhões de palavras, e obteve recall 34,2% superior ao obtido pela metodologia existente que utilizou os mesmos dados/entidades. Como estudo de caso, textos sobre a História da Família Real Britânica extraídos da web foram analisados manualmente, e o recall de 73,5% obtido pela ferramenta UnBWiki VSM foi ainda maior do que o verificado na comparação com o estado da arte.
Abstract: Entity Linking (EL) is an important research topic with several web applications. Despite the growing interest the focus also has been on the identification of proper names, i.e, people, organizations, places, units of measure, and others. The main challenge here is to find concrete concepts (sentences without predefined entity class) on web texts by linking them to their respective pages of Wikipedia. This paper presents a new approach to connect concrete concepts taken from texts in English with Wiki entities, in this work represented by the Wikipedia pages, using classification part-of-speech to detect concrete concepts and Vector Space Models (VSM) to perform the disambiguation of entities selected from Wiki base. The solution, called UnBWiki VSM, was implemented in Java using the Eclipse IDE with MySQL database where the base of entities was stored. The proposed framework was adjusted to work with a Wikilinks database, references to Wikipedia pages drawn from different web pages, containing approximately 2.8 million entities and 18 million words, and obtained recall 34.2% higher than the existing methodology that used the same data/entities. As a case study, Royal Family History texts extracted from the web were analyzed manually, and the recall of 73.5% obtained by UnBWiki VSM tool was greater than that observed in comparison with the state of the art.
Description: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2015.
Licença:: A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.
DOI: http://dx.doi.org/10.26512/2015.08.D.19890
Appears in Collections:CIC - Mestrado em Informática (Dissertações)

Show full item record Recommend this item " class="statisticsLink btn btn-primary" href="/handle/10482/19890/statistics">



Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.