Trabalhos

Trabalho de Conclusão


Título:	Extração Automática de Dados Estruturados de Vagas de Emprego em Páginas Web
Aluno:	JONATHAN EGÍDIO SZABLEVSKI DE MOURA
Semestre:	2018/02
Situação:	Concluido
Áreas de interesse:	Não informado
Orientador:	Rodrigo Rafael Villarreal Goulart
Avaliadores:	Daniel Dalalana Bertoglio, Guillermo Nudelman Hess
Documentos:	Anteprojeto, Texto final TC1 (liberado apenas para a banca), Texto final TC2
Palavras-chave:	Processamento de linguagem natural. Mineração de textos. Wrapper. Extração automática.
Resumo:	Este trabalho trata da extração automática de dados estruturados a partir de páginas HTML. Programas que extraem dados estruturados a partir de dados semiestruturados em páginas na web são chamados de wrappers. Técnicas de extração automática permitem que aplicações extraiam dados sem a necessidade de intervenção humana no processo de criação dos wrappers. A pesquisa explora um dos problemas encontrados dentro do contexto de atuação da startup Jober. O Jober utiliza uma abordagem manual para o desenvolvimento de wrappers para coleta de dados relacionados a vagas de emprego em diferentes websites, o que limita a sua capacidade de escalar sua operação. A pesquisa tem como objetivo a proposta do protótipo de um software capaz de extrair dados estruturados a partir de páginas web contendo vagas de emprego, de modo automatizado e não supervisionado. São apresentadas os conceitos e técnicas de extração automática mais relevantes para o cenário analisado. A proposta de solução é discutida, apresentando-se as etapas de geração de wrappers, extração de dados e identificação da lista de vagas. São realizados experimentos de extração em páginas de listagem de diferentes websites. Os resultados demonstram que o protótipo é capaz de identificar a lista de vagas na maioria das situações, porém muitos dados irrelevantes são extraídos junto das informações de cada vaga.
Link biblioteca:	Não informado