Trabalho de Conclusão |
---|
Título: | COMPARAÇÃO DE MODELOS DE APRENDIZADO DE MÁQUINA NA CLASSIFICAÇÃO DE TEXTOS COM LINGUAGEM OFENSIVA E DISCURSO DE ÓDIO |
Aluno: | ÍTALO SANTOS DE OLIVEIRA |
Semestre: | 2023/02 |
Situação: | Concluido |
Áreas de interesse: | Não informado |
Orientador: | Rodrigo Rafael Villarreal Goulart |
Avaliadores: | Debora Nice Ferrari Barbosa, Gabriel da Silva Simões |
Documentos: | Anteprojeto (liberado apenas para a banca), Texto final TC1 (liberado apenas para a banca), Texto final TC2 (liberado apenas para a banca) |
Palavras-chave: | Processamento de Linguagem Natural, discurso de ódio, linguagem ofensiva, Instagram, Twitter |
Resumo: | Este trabalho explora pesquisas sobre a classificação de textos em português, oriundos de comentários no Instagram e no Twitter, que contenham linguagem ofensiva e discurso de ódio, por meio de técnicas de Inteligência Artificial utilizando Processamento de Linguagem Natural e Aprendizado de Máquina. Além disso, são consideradas pesquisas que tiveram como o objetivo construir um corpus constituído por textos com e sem discurso de ódio e linguagem ofensiva. Replicando estratégias já utilizadas em outras pesquisas e utilizando um dataset criado por pesquisadores brasileiros, o objetivo deste trabalho foi estudar essas estratégias e testar outras ainda não utilizadas, fazendo uso da feature word of embeddings e de uma estratégia usando a rede neural Long Short Term Memory otimizada e de uma abordagem híbrida utilizando a rede Long Short Term Memory junto com a Convolutional Neural Network, além de explorar os impactos de não balancear o dataset ou balanceá-lo usando as técnicas undersampling e oversampling. No fim dos experimentos foi concluído que mesmo otimizando a Long Short Term Memory o ganho foi pequeno comparado a outros algoritmos de aprendizado de máquina devido ao tamanho do dataset utilizado, só obtendo um resultado significativo quando utilizada junto com a Convolutional Neural Network, o resultado foi ainda mais alto quando a abordagem híbrida foi feita junto com a técnica de balanceamento oversampling, a mesma técnica foi colocada como ponto de discussão devido a um possível overfitting gerado pela duplicação dos dados que ela causa e apesar dos vários experimentos realizados este trabalhou terminou com um modelo para a tarefa de detecção de linguagem ofensiva com mais confiabilidade do que para a tarefa de discurso de ódio. |
Link biblioteca: | Não informado |
TC Online - Sistema de Trabalhos de Conclusão Online