Algoritmo K-Means Paralelo com base no MapReduce para Mineração de dados agrícolas

Lays Helena Lopes Veloso; Luciano José Senger

Lays Helena Lopes Veloso Universidade Estadual de Ponta Grossa
Luciano José Senger Universidade Estadual de Ponta Grossa

Resumo

Técnicas de agrupamento são empregadas em aplicações nas diversas áreas do conhecimento. O K-Means é o algoritmo de agrupamento mais comumente usado. No entanto, o tempo gasto para a execução do KMeans pode ser considerável quando grandes quantidades de dados são usadas. O objetivo deste trabalho é implementar o algorimo K-Means paralelo baseado no modelo MapReduce para ser executado em um cluster Hadoop e melhorar o tempo de resposta da mineração de dados agrícolas. Este irá tratar falhas identificadas em outras implementações paralelas do KMeans. Seu desempenho será avaliado com relação ao SpeedUp e ao ScaleUp a partir de experimentos usando grandes conjuntos de dados de fluxo de regiões agrícolas.