Trabalho de Conclusão
Título:AVALIAÇÃO DE DESEMPENHO ENTRE ALGORITMOS DISTRIBUÍDOS PARA MINERAÇÃO DE ITEMSETS FREQUENTES NO APACHE SPARK
Aluno:Felipe Alfredo Kunzler
Semestre:2019/01
Situação:TC II
Áreas de interesse:Não informado
Orientador:Juliano Varella de Carvalho
Avaliadores:Gabriel da Silva Simões, Paulo Ricardo Muniz Barros
Documentos:Anteprojeto, Texto final TC1 (liberado apenas para a banca), Texto final TC2 (liberado apenas para a banca)
Palavras-chave:Apache Spark. Computação distribuída. Mineração de itemsets frequentes. Big Data.
Resumo:

O constante aumento no volume de dados produzido todos os dias por novas tecnologias trouxe diversos desafios que se referem ao processamento destes dados em tempos aceitáveis. A etapa de geração de itemsets frequentes em algoritmos de mineração de regras de associação é de grande importância e ao mesmo tempo computacionalmente pesada. Isso faz com que implementações sequenciais convencionais como Apriori e FP-Growth não sejam viáveis à medida que o volume de dados aumenta. O modelo de programação Map Reduce, proposto pela Google, permite que programas sejam expressos através de duas funções: map e reduce, que podem ser executadas paralelamente por centenas ou milhares de computadores, viabilizando o processamento de altos volumes de dados. Entretanto, Map Reduce só possibilita o reuso de dados entre diferentes tarefas através da escrita e leitura de dados pelo disco. Assim, diversos algoritmos de propriedade iterativa, que precisam aplicar funções repetitivamente sobre os mesmos dados, acabam por não obter tempos de execução ótimos quando implementados com Map Reduce. Uma nova abordagem para a computação de alto volumes de dados é proposta pelo Apache Spark. Focando no processamento distribuído em memória, o Spark possibilita o reuso de dados entre diferentes tarefas através da memória primária ao invés do disco rígido, trazendo melhor desempenho na execução em várias classes de algoritmos. Desta maneira, neste trabalho se propõe o estudo e a investigação da plataforma Apache Spark, assim como o desenvolvimento e a avalição de desempenho de algoritmos distribuídos para mineração de itemsets frequentes baseados no Apriori e FP-Growth.

Link biblioteca:Não informado