[DISSERTAÇÃO DE MESTRADO] Aprendizado Ativo para Classificadores de Fluxo de Dados Baseados em Agrupamento

Local: 
Por videoconferência
Data de Defesa: 
25/11/2021 - 14:00
Banca examinadora: 
Prof.ª Dr.ª Elaine Ribeiro de Faria Paiva - FACOM/UFU (Orientadora)
Prof. Dr. Ricardo Cerri - UFSCAR (Coorientador)
Prof.ª Dr.ª Fabíola Souza Fernandes Pereira - FACOM/UFU
Prof. Dr. Ronaldo Cristiano Prati - UFABC

O processo de atualização de classificadores de fluxo de dados baseados em agrupamento gera grupos a partir de um buffer de instâncias de dados parcial ou totalmente não rotuladas. Cada grupo é então categorizado como a extensão de uma classe conhecida ou como o surgimento de uma nova, resumido e finalmente adicionado ao modelo de classificação. Considerando o custo de aquisição do rótulo, quando comparadas a abordagens exclusivamente supervisionadas, as estratégias baseadas em agrupamento apresentam a vantagem de permitir o uso de dados não rotulados para atualização do modelo de classificação. No entanto, o ganho de informações sobre a distribuição das classes de dados por meio de dados não rotulados está sujeito a suposições de como a distribuição dos atributos interage com a distribuição das classes de dados. Por causa disso, o processo de atualização de classificadores de fluxo de dados baseados em agrupamento está sujeito a falhar à medida que essa interação muda inesperadamente devido a característica não estacionária do fluxo, levando a erros de inferência de classe e, consequentemente, à categorização incorreta de grupos, comprometendo a consistência do modelo de classificação. Considerando este problema, neste trabalho, propomos uma estratégia de aprendizagem ativa que seleciona os grupos para os quais a categorização é mais incerta e então, para cada grupo escolhido, consulta pelo rótulo das instâncias mais informativas no contexto da distribuição interna do grupo. Ao dividir a responsabilidade da consulta de aprendizagem ativa entre duas estratégias de consulta, uma para o nível dos grupos e outra para o nível das instâncias, a estratégia garante um uso eficiente e eficaz dos recursos de rótulo, adquirindo rótulos apenas para grupos com maior probabilidade de precisar deles. Para testar a estratégia de aprendizagem ativa proposta, ela foi aplicada a dois classificadores de fluxo de dados baseados em clustering da literatura: MINAS e ECHO. Nos resultados, a estratégia de aprendizagem ativa recuperou um número significativo de categorizações incorretas de cluster ao custo de poucas aquisições adicionais de rótulo