Tengo que de una pagina web (que es XHTML) parsearla para conseguir sacar una tabla que viene en ella y que me lo devuelva como un xml. El codigo de la pagina es asi:
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="es" lang="es">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
........
<table id="taula_recorreguts" summary="Taula que mostra la relació entre cada tram i el temps que es triga actualment en recorrer-lo, si el temps actual que es triga en recorrer-lo És superior a la mitja del tram i el temps previst que es trigarà en recorrer-lo dintre de 15 minuts">
<caption>Relación de tramos y tiempos de recorrido - 11/11/2009 19:00</caption>
<thead>
<tr>
<th id="header1" class="recorregut">Recorrido</th>
<th id="header2" class="temps">Tiempo<br />actual</th>
<th id="header3" class="increment">En relación<br />con el tiempo habitual</th>
<th id="header4" class="temps_15">Tiempo previsto<br />en 15 minutos</th>
</tr>
</thead>
<tbody>
<tr id="itinerari_1">
<td headers="header1" class="recorregut">Aragó: Meridiana -> Pau Claris</td>
<td headers="header2" class="temps">5<abbr title="Minuts">min</abbr> 9<abbr title="Segons">s</abbr></td>
<td headers="header3" class="increment">Se mantiene</td>
<td headers="header4" class="temps_15">5<abbr title="Minuts">min</abbr> 8<abbr title="Segons">s</abbr></td>
</tr>
<tr id="itinerari_3">
<td headers="header1" class="recorregut">Guipúscoa: Meridiana -> Cantà bria</td>
<td headers="header2" class="temps">5<abbr title="Minuts">min</abbr> 9<abbr title="Segons">s</abbr></td>
<td headers="header3" class="increment">Se mantiene</td>
<td headers="header4" class="temps_15">5<abbr title="Minuts">min</abbr> 9<abbr title="Segons">s</abbr></td>
</tr>
<tr id="itinerari_4">
<td headers="header1" class="recorregut">Guipúscoa: Cantà bria -> Meridiana</td>
<td headers="header2" class="temps">5<abbr title="Minuts">min</abbr> 27<abbr title="Segons">s</abbr></td>
<td headers="header3" class="increment">Se mantiene</td>
<td headers="header4" class="temps_15">5<abbr title="Minuts">min</abbr> 31<abbr title="Segons">s</abbr></td>
</tr>
<tr id="itinerari_5">
<td headers="header1" class="recorregut">Gran Via: Pl. Cerdà -> Pl. Espanya</td>
<td headers="header2" class="temps">2<abbr title="Minuts">min</abbr> 56<abbr title="Segons">s</abbr></td>
<td headers="header3" class="increment">Se mantiene</td>
<td headers="header4" class="temps_15">2<abbr title="Minuts">min</abbr> 56<abbr title="Segons">s</abbr></td>
</tr>
........
Y esto ultimo es la tabla que yo quiero sacar. Estoy trabajando con eclipse y lo tengo que hacer con java, y en lo que consiste es que al parsear esta pagina y despues compilar como una aplicacion java en la consola me tendria que salir un xml del estilo a este:
<item> itinerio_1
<recorrido>Gran Via: Pl. Cerdà -> Pl. Espanya</recorrido>
<tiempo>2 min 56 s </tiempo>
Algo asi necesito. La pagina actualiza cada poco la tabla y por eso no lo puedo hacer directamente con el xhtml lo tengo que hacer mediante la url.
Si alguien me puede ayudar lo agradeceria mucho