Compressão gramatical com extração eficiente

Dissertação de Mestrado
por Caroline Félix de Oliveira
Publicado: 24/04/2024 - 11:04
Última modificação: 24/04/2024 - 11:12

Link para a defesa: Ciência de Dados

Resumo: Apresentamos um compressor, denominado GCX (Grammar Compression modulo X),baseado na técnica de compressão gramatical por indução, introduzida no GCIS (NUNESet al,2022). Nosso método incorpora a fatoração de textos utilizada pelo algoritmo de ordenação de sufixos DC3 (KaRKKaINEN; SANDERS; BURKHARDT,2006), para criar uma gramática livre de contexto capaz de produzir o texto de entrada. Nós avaliamos
o desempenho do nosso algoritmo utilizando diferentes valores de cobertura x, e introduzimos uma heurística baseada na média do prefixo comum mais longo entre as regras
da gramática para definir o valor dessa cobertura. GCX suporta operações de extração rápidas sobre o texto codificado sem a necessidade de descompressão. Nossos experimentos foram realizados com conjuntos de dados reais e artificiais e os resultados mostraram que o GCX, em comparação com o GCIS, é mais lento para comprimir, mais rápido para descomprimir, tem uma taxa de compressão pior na maioria das vezes; por outro lado,possuí velocidade de extração aproximadamente 100 vezes mais rápida.

A defesa será realizada no bloco 1B sala 132

Coorientador: Guilherme Pimentel Telles - Universidade Estadual de Campinas, Instituto de Computação.
Banca Examinadora: 
Marcelo Keese Albertini - Universidade Federal de Uberlândia, Centro de Ciências Exatas e Tecnologia, Faculdade de Ciências da Computação.
Gonzalo Navarro Badino - Universidad de Chile, Dept. of Computer Science
Data e Horário: 
06/05/2024 - 14:00
Av. João Naves de Ávila, 2121 Bairro: Santa Mônica
Uberlândia, Minas Gerais, Brasil
38408-100
Campus Santa Mônica - Bloco 1B - Sala 132
Complemento: 
Bairro: Santa Mônica