Sistemas de Informação

Trabalho de Conclusão
Título:COMPARAÇÃO DE MODELOS DE APRENDIZADO DE MÁQUINA NA CLASSIFICAÇÃO DE TEXTOS COM LINGUAGEM OFENSIVA E DISCURSO DE ÓDIO
Aluno:ÍTALO SANTOS DE OLIVEIRA
Semestre:2023/02
Situação:Concluido
Áreas de interesse:Não informado
Orientador:Rodrigo Rafael Villarreal Goulart
Avaliadores:Debora Nice Ferrari Barbosa, Gabriel da Silva Simões
Documentos:Anteprojeto (liberado apenas para a banca), Texto final TC1 (liberado apenas para a banca), Texto final TC2 (liberado apenas para a banca)
Palavras-chave:Processamento de Linguagem Natural, discurso de ódio, linguagem ofensiva, Instagram, Twitter
Resumo:

Este trabalho explora pesquisas sobre a classificação de textos em português, oriundos de comentários no Instagram e no Twitter, que contenham linguagem ofensiva e discurso de ódio, por meio de técnicas de Inteligência Artificial utilizando Processamento de Linguagem Natural e Aprendizado de Máquina. Além disso, são consideradas pesquisas que tiveram como o objetivo construir um corpus constituído por textos com e sem discurso de ódio e linguagem ofensiva. Replicando estratégias já utilizadas em outras pesquisas e utilizando um dataset criado por pesquisadores brasileiros, o objetivo deste trabalho foi estudar essas estratégias e testar outras ainda não utilizadas, fazendo uso da feature word of embeddings e de uma estratégia usando a rede neural Long Short Term Memory otimizada e de uma abordagem híbrida utilizando a rede Long Short Term Memory junto com a Convolutional Neural Network, além de explorar os impactos de não balancear o dataset ou balanceá-lo usando as técnicas undersampling e oversampling. No fim dos experimentos foi concluído que mesmo otimizando a Long Short Term Memory o ganho foi pequeno comparado a outros algoritmos de aprendizado de máquina devido ao tamanho do dataset utilizado, só obtendo um resultado significativo quando utilizada junto com a Convolutional Neural Network, o resultado foi ainda mais alto quando a abordagem híbrida foi feita junto com a técnica de balanceamento oversampling, a mesma técnica foi colocada como ponto de discussão devido a um possível overfitting gerado pela duplicação dos dados que ela causa e apesar dos vários experimentos realizados este trabalhou terminou com um modelo para a tarefa de detecção de linguagem ofensiva com mais confiabilidade do que para a tarefa de discurso de ódio.

Link biblioteca:Não informado

TC Online - Sistema de Trabalhos de Conclusão Online