O Processamento da Linguagem Natural (PLN) é a área da computação que focada no estudo da língua e de suas aplicações computacionais. Os pesquisadores de PLN desenvolvem estudos sobre fenômenos diferentes da língua, como por exemplo, a análise sintática, resolução de anáforas e no tratamento de diálogos. Os experimentos envolvem geralmente o uso de uma coleção dos textos chamada corpus. Para criar um corpus é necessário coletar os textos, com base em algum tema, e etiquetá-los de acordo com algum aspecto lingüístico, o que consome recursos humanos e computacionais. Para investigar estas deficiências este trabalho sugere o uso de uma larga coleção de textos, a Internet. Para fazê-lo, APIs de mecanismos de busca serão utilizadas, como por exemplo, as APIs do Google, Yahoo e Technorati. Usando conceitos de PLN e ferramentas e busca APIs, este trabalho propõe a construção de um framework de PLN que use a Internet como corpus. |