[NaLug] estrarre tabella da pagina html
insomniac
insomniac a slackware.it
Mer 23 Gen 2008 00:11:37 CET
On Tue, 22 Jan 2008 18:59:35 +0100
domenico.v <domenico.v a gmail.com> wrote:
> Salve a tutti,
> ho un problema con sed e vorrei un consiglio da voi. Devo estrarre
> da pagine come questa
> http://www.aia-figc.it/designazioni/canc/des.asp?gare=92-0-SC1-A la
> tabella è possibile farlo con sed? Cioè fare uno script che dato
> l'url mi estragga dalla pagina solo la tabella direttamente in un
> file csv?
>
> Ogni suggerimento è benvenuto.
Ho abbozzato questo script, http://insomniac.slackware.it/figc.py ,
vedi se va bene per le tue esigenze, purtroppo quella pagina ha un html
veramente brutto (nested table, tanto per dirne una), e ovviamente
trattandosi di un parser HTML, se cambia qualcosa nella pagina,
potrebbe non funzionare più. Se non ti piace l'output con i quote nel
CSV, cambia QUOTE_ALL in QUOTE_MINIMAL o QUOTE_NONE nello script.
Good luck,
--
Andrea Barberio
a.barberio a oltrelinux.com - Linux&C.
andrea.barberio a slackware.it - Slackware Linux Project Italia
GPG key on http://insomniac.slackware.it/gpgkey.asc
2818 A961 D6D8 1A8C 6E84 6181 5FA6 03B2 E68A 0B7D
SIP: 5327786, Phone: 06 916503784
Maggiori informazioni sulla lista
ml