Ciência da Computação

Trabalho de Conclusão
Título:Extração Automática de Dados Estruturados de Vagas de Emprego em Páginas Web
Aluno:JONATHAN EGÍDIO SZABLEVSKI DE MOURA
Semestre:2018/02
Situação:Concluido
Áreas de interesse:Não informado
Orientador:Rodrigo Rafael Villarreal Goulart
Avaliadores:Daniel Dalalana Bertoglio, Guillermo Nudelman Hess
Documentos:Anteprojeto, Texto final TC1 (liberado apenas para a banca), Texto final TC2
Palavras-chave:Processamento de linguagem natural. Mineração de textos. Wrapper. Extração automática.
Resumo:

Este trabalho trata da extração automática de dados estruturados a partir de páginas HTML. Programas que extraem dados estruturados a partir de dados semiestruturados em páginas na web são chamados de wrappers. Técnicas de extração automática permitem que aplicações extraiam dados sem a necessidade de intervenção humana no processo de criação dos wrappers. A pesquisa explora um dos problemas encontrados dentro do contexto de atuação da startup Jober. O Jober utiliza uma abordagem manual para o desenvolvimento de wrappers para coleta de dados relacionados a vagas de emprego em diferentes websites, o que limita a sua capacidade de escalar sua operação. A pesquisa tem como objetivo a proposta do protótipo de um software capaz de extrair dados estruturados a partir de páginas web contendo vagas de emprego, de modo automatizado e não supervisionado. São apresentadas os conceitos e técnicas de extração automática mais relevantes para o cenário analisado. A proposta de solução é discutida, apresentando-se as etapas de geração de wrappers, extração de dados e identificação da lista de vagas. São realizados experimentos de extração em páginas de listagem de diferentes websites. Os resultados demonstram que o protótipo é capaz de identificar a lista de vagas na maioria das situações, porém muitos dados irrelevantes são extraídos junto das informações de cada vaga.

Link biblioteca:Não informado

TC Online - Sistema de Trabalhos de Conclusão Online