Trabalho de Conclusão |
---|
Título: | DETECÇÃO AUTOMÁTICA DE SPAMS DE OPINIÃO EM AVALIAÇÕES DE PRODUTOS NA LÍNGUA PORTUGUESA |
Aluno: | Fernando Augusto Schuch |
Semestre: | 2019/02 |
Situação: | Concluido |
Áreas de interesse: | Não informado |
Orientador: | Rodrigo Rafael Villarreal Goulart |
Avaliadores: | Juliano Varella de Carvalho, Ricardo Ferreira de Oliveira |
Documentos: | Anteprojeto, Texto final TC1 (liberado apenas para a banca), Texto final TC2 |
Palavras-chave: | Spams de opinião. Anotação. Processamento de Linguagem Natural. Aprendizado de Máquina. |
Resumo: | Opiniões sobre bens ou serviços representam uma excelente fonte de informação, tanto para consumidores quanto empresas e fabricantes. Avaliações sobre produtos em websites de venda estão sendo cada vez mais consultadas, com o propósito de tomar decisões de compra com base em experiências de outras pessoas. A confiança nessas avaliações é alta, principalmente em indivíduos entre 18 e 34 anos. Logo, percebe-se que há interesse e necessidade em estudá-las, a fim de acompanhar como está a reputação da marca na Internet. Pelo fato de que reviews positivas geralmente significam lucro, enquanto negativas afetam a notoriedade dos produtos, este cenário motiva a postagem de opiniões falsas, buscando persuadir consumidores a tomarem decisões erradas. Essa atividade, conhecida como spams de opinião, é uma vertente da mineração de opiniões que recebeu atenção somente a partir de 2008. Apesar de já existirem estudos nessa área, ela tem sido pouco abordada na língua portuguesa. Portanto, há escassez de exemplos anotados, ou seja, classificados como spam ou não-spam para a criação de algoritmos de detecção. Esta pesquisa apresenta o processo de anotação de um corpus de avaliações sobre mercadorias, objetivando a identificação de opiniões nas quais os usuários não têm experiência prévia com os produtos, analisando assim, o impacto delas na reputação online de bens de consumo. Verificou-se que em 29% das opiniões não foi possível afirmar se o indivíduo que a postou possuía a mercadoria, ou pelo menos a utilizou. Portanto, deixando dúvidas se sua avaliação é genuína. Com a utilização de algoritmos de Aprendizado de Máquina, foi proposto um classificador a partir de atributos linguísticos extraídos das opiniões. Com o experimento, concluiu-se que o modelo obteve 81% de acerto na predição de textos legítimos e possíveis spams. |
Link biblioteca: | Não informado |
TC Online - Sistema de Trabalhos de Conclusão Online