Coleta de Dados em Site da Web

By fabianabyte

Pessoal,

Boa tarde,

Estou aqui para um post, esse será sobre um trabalho que mistura Datamining com DatawareHouse, bom o meu aplicativo, vai em um site qualquer, coleta informações que estão contidas no HTML da página, faz um parser em cima do que ele recebe e começa a varrer as tag’s em busca das informações para alimentar o banco de dados.

Eu teria escolhido Oracle XE um banco robusto, free, mas em contrapartida é muito pesado e por trablhar todos os dias com ele resolvi escolher um banco que seja free e que possa trazer coisas novas, então escolhi o postgre, que não deixa nada a desejar e acima de tudo é levinho… Tem umas coisas nele que são diferentes mas isso faz parte da aventura…

O problema inicial seria obter o HTML da página, mas esse logo foi resolvido com o auxílio do HTTPClient da Apache, após obter com sucesso a String HTML da página pesquisada, tive outro problema… a busca dentro das tags, e de novo a apache me “salvou” hehehe usei o HTMLParser, nesse ponto tive uma baita dor de cabeça… a coisa fica meio “manual”, para quem já conhece outro tipo de parser como o XStream vai entender.

Mas após as pazes com o parser a lógica e o banco de dados montado, foi realizar o processo de coleta das informações, agora vai vir a parte mais interessante, montar uma busca em cima das informações coletadas e fazer com que elas façam sentido…

Ao término desse trabalho vou disponibilizá-lo aqui em meu blog para que possam ver as etapas acompanhadas.

Até a próxima!

Deixe uma resposta