Trabalho de Conclusão
Título:AVALIAÇÃO DE DESEMPENHO ENTRE ALGORITMOS DISTRIBUÍDOS PARA MINERAÇÃO DE ITEMSETS FREQUENTES NO APACHE SPARK
Aluno:Felipe Alfredo Kunzler
Semestre:2019/01
Situação:Concluido
Áreas de interesse:Não informado
Orientador:Juliano Varella de Carvalho
Avaliadores:Gabriel da Silva Simões, Paulo Ricardo Muniz Barros
Documentos:Anteprojeto, Texto final TC1 (liberado apenas para a banca), Texto final TC2
Palavras-chave:Apache Spark. Computação distribuída. Mineração de itemsets frequentes. Big Data.
Resumo:

O constante aumento no volume de dados produzido todos os dias por novas tecnologias trouxe diversos desafios que se referem ao processamento destes dados em tempos aceitáveis. A etapa de geração de itemsets frequentes em algoritmos de mineração de regras de associação é de grande importância e ao mesmo tempo computacionalmente custosa. Isso faz com que implementações sequenciais convencionais com os algoritmos Apriori e FP-Growth não sejam viáveis à medida que o volume de dados aumenta. O modelo de programação Map Reduce, proposto pela Google, permite que programas sejam expressos através de duas funções: map e reduce, que podem ser executadas paralelamente por centenas ou milhares de computadores, viabilizando o processamento de altos volumes de dados. Entretanto, Map Reduce, quando utilizado o Apache Hadoop, só possibilita o reuso de dados entre diferentes tarefas através da escrita e leitura de dados pelo disco. Assim, diversos algoritmos de propriedade iterativa, que precisam aplicar funções repetitivamente sobre os mesmos dados, acabam por não obter tempos de execução ótimos quando implementados com Map Reduce sobre Apache Hadoop. Uma nova abordagem para a computação de alto volumes de dados é proposta pelo Apache Spark. Focando no processamento distribuído em memória, o Spark possibilita o reuso de dados entre diferentes tarefas através da memória primária ao invés do disco rígido, trazendo melhor desempenho na execução em várias classes de algoritmos. Desta forma, neste trabalho se propõe o estudo e a investigação da plataforma Apache Spark, assim como o desenvolvimento e a avaliação de desempenho de três algoritmos distribuídos YAFIM, R-Apriori e DFPS para mineração de itemsets frequentes baseados no Apriori e FP-Growth. Os resultados dos algoritmos foram analisados e comparados, variando o volume de dados e outros parâmetros como o número de nodos do cluster. O algoritmo DFPS demonstrou um desempenho superior na maior parte dos experimentos, seguido por R-Apriori e YAFIM, contudo, foram observadas algumas exceções dependendo de certas características do dataset.

Link biblioteca:Não informado