Trabalho de Conclusão |
---|
Título: | Extração Automática de Dados Estruturados de Vagas de Emprego em Páginas Web |
Aluno: | JONATHAN EGÍDIO SZABLEVSKI DE MOURA |
Semestre: | 2018/02 |
Situação: | Concluido |
Áreas de interesse: | Não informado |
Orientador: | Rodrigo Rafael Villarreal Goulart |
Avaliadores: | Daniel Dalalana Bertoglio, Guillermo Nudelman Hess |
Documentos: | Anteprojeto, Texto final TC1 (liberado apenas para a banca), Texto final TC2 |
Palavras-chave: | Processamento de linguagem natural. Mineração de textos. Wrapper. Extração automática. |
Resumo: | Este trabalho trata da extração automática de dados estruturados a partir de páginas HTML. Programas que extraem dados estruturados a partir de dados semiestruturados em páginas na web são chamados de wrappers. Técnicas de extração automática permitem que aplicações extraiam dados sem a necessidade de intervenção humana no processo de criação dos wrappers. A pesquisa explora um dos problemas encontrados dentro do contexto de atuação da startup Jober. O Jober utiliza uma abordagem manual para o desenvolvimento de wrappers para coleta de dados relacionados a vagas de emprego em diferentes websites, o que limita a sua capacidade de escalar sua operação. A pesquisa tem como objetivo a proposta do protótipo de um software capaz de extrair dados estruturados a partir de páginas web contendo vagas de emprego, de modo automatizado e não supervisionado. São apresentadas os conceitos e técnicas de extração automática mais relevantes para o cenário analisado. A proposta de solução é discutida, apresentando-se as etapas de geração de wrappers, extração de dados e identificação da lista de vagas. São realizados experimentos de extração em páginas de listagem de diferentes websites. Os resultados demonstram que o protótipo é capaz de identificar a lista de vagas na maioria das situações, porém muitos dados irrelevantes são extraídos junto das informações de cada vaga. |
Link biblioteca: | Não informado |
TC Online - Sistema de Trabalhos de Conclusão Online