Arquivo da categoria ‘JAVA’

Coleta de Dados em Site da Web

Maio 31, 2008

Pessoal,

Boa tarde,

Estou aqui para um post, esse será sobre um trabalho que mistura Datamining com DatawareHouse, bom o meu aplicativo, vai em um site qualquer, coleta informações que estão contidas no HTML da página, faz um parser em cima do que ele recebe e começa a varrer as tag’s em busca das informações para alimentar o banco de dados.

Eu teria escolhido Oracle XE um banco robusto, free, mas em contrapartida é muito pesado e por trablhar todos os dias com ele resolvi escolher um banco que seja free e que possa trazer coisas novas, então escolhi o postgre, que não deixa nada a desejar e acima de tudo é levinho… Tem umas coisas nele que são diferentes mas isso faz parte da aventura…

O problema inicial seria obter o HTML da página, mas esse logo foi resolvido com o auxílio do HTTPClient da Apache, após obter com sucesso a String HTML da página pesquisada, tive outro problema… a busca dentro das tags, e de novo a apache me “salvou” hehehe usei o HTMLParser, nesse ponto tive uma baita dor de cabeça… a coisa fica meio “manual”, para quem já conhece outro tipo de parser como o XStream vai entender.

Mas após as pazes com o parser a lógica e o banco de dados montado, foi realizar o processo de coleta das informações, agora vai vir a parte mais interessante, montar uma busca em cima das informações coletadas e fazer com que elas façam sentido…

Ao término desse trabalho vou disponibilizá-lo aqui em meu blog para que possam ver as etapas acompanhadas.

Até a próxima!