Este trabalho trata da extração automática de dados estruturados a partir de páginas HTML. Programas que extraem dados estruturados a partir de dados semiestruturados em páginas na web são chamados de wrappers. Técnicas de extração automática permitem que aplicações extraiam dados sem a necessidade de intervenção humana no processo de criação dos wrappers. A pesquisa explora um dos problemas encontrados dentro do contexto de atuação da startup Jober. O Jober utiliza uma abordagem manual para o desenvolvimento de wrappers para coleta de dados relacionados a vagas de emprego em diferentes websites, o que limita a sua capacidade de escalar sua operação. A pesquisa tem como objetivo a proposta do protótipo de um software capaz de extrair dados estruturados a partir de páginas web contendo vagas de emprego, de modo automatizado e não supervisionado. São apresentadas os conceitos e técnicas de extração automática mais relevantes para o cenário analisado. A proposta de solução é discutida, apresentando-se as etapas de geração de wrappers, extração de dados e identificação da lista de vagas. São realizados experimentos de extração em páginas de listagem de diferentes websites. Os resultados demonstram que o protótipo é capaz de identificar a lista de vagas na maioria das situações, porém muitos dados irrelevantes são extraídos junto das informações de cada vaga. |