Trabalho de Conclusão
Título:Extração de dados estruturados de vagas de emprego em páginas web
Aluno:JONATHAN EGÍDIO SZABLEVSKI DE MOURA
Semestre:2018/02
Situação:Anteprojeto
Áreas de interesse:Não informado
Orientador:Rodrigo Rafael V. Goulart
Avaliadores:Daniel Dalalana Bertoglio, Guillermo Nudelman Hess
Documentos:Anteprojeto (liberado apenas para a banca)
Palavras-chave:Processamento da Linguagem Natural, mineração de textos, wrapper
Resumo:

Este trabalho trata da extração automática de dados estruturados a partir de páginas HTML. Programas que extraem dados estruturados a partir de dados semi-estruturados em páginas na web são chamados de wrappers. Técnicas de extração automática permitem que aplicações extraiam dados sem a necessidade de intervenção humana no processo de criação dos wrappers. Esta pesquisa explora um dos problemas encontrados dentro do contexto de atuação da startup Jober. A Jober utiliza uma abordagem manual para o desenvolvimento de wrappers para coleta de dados relacionados a vagas de emprego em diferentes websites, o que limita a sua capacidade de escalar sua operação. Sendo assim, este trabalho tem como objetivo o desenvolvimento do protótipo de um software capaz de extrair dados estruturados a partir de páginas web contendo vagas de emprego, de modo automatizado e não-supervisionado. Para atingir este objetivo, serão identificadas as técnicas de extração automática mais relevantes para o cenário analisado, e que servem como base para o desenvolvimento do protótipo. A avaliação do protótipo será realizada a partir da comparação entre os dados extraídos com o protótipo e os dados extraídos com o wrapper manual já utilizado pela startup.

Link biblioteca:Não informado