Comunidad de diseño web y desarrollo en internet online

[Ayuda] Expresiones Regulares

Citar            
MensajeEscrito el 26 Ene 2011 03:00 am
Bueno amigos, siempre tengo algun que otro problema con expresiones regulares, aver si me ayudan.
Lo que quiero es extraer las urls de las busquedas de google, esas urls verdes.
Tengo la siguiente expresion regular, pero aun así no esta del todo bien :S

/<span class=f><cite>(.+)<\/cite>/is

Desde ya muchas gracias.

Por feme

5 de clabLevel



 

firefox
Citar            
MensajeEscrito el 26 Ene 2011 03:41 pm
antes primero tienes que saber que google separa el contenido de la presentacion
esto es lo que te muestra google

Código :

http://www.google.com.bo/#hl=es&source=hp&biw=1111&bih=463&q=testing&btnG=Buscar+con+Google&aq=f&aqi=g10&aql=&oq=testing&fp=636d696a2376e6e7

y lo que en realidad hace es generar un archivo del tipo javascript

Código :

http://www.google.com.bo/search?hl=es&source=hp&biw=1111&bih=463&q=testing&btnG=Buscar+con+Google&aq=f&aqi=g10&aql=&oq=testing&fp=636d696a2376e6e7

y veras que ahi estan los resultados inluso podrias adaptarlo a tus necesidades
y con respecto a las expresiones regulares trata de ser concreto cuando le des reglas

Código :

/<span class=f><cite>(.+)<\/cite>/is

con es le indicas que saque cualquier valor incluso los de marcado como son <>" = osea tags que nada que ver si sabes que una url nunca tendra un simbolo ">"
entonces ponle

Código :

/<span class=f><cite>([a-zA-Z0-9\-_#%&,.=;\?]+)<\/cite>/is

hay simbolos en las expresiones regualres la cuales tienes que escaparlos con una barra invertida

Por tuadmin

Claber

598 de clabLevel



Genero:Masculino  

firefox
Citar            
MensajeEscrito el 26 Ene 2011 06:30 pm
Respecto a tu expresion regular sobre que dices que en un enlace no pueden aver '<' ni '>', es verdad pero esto no se trata de un enlace sino de un simple texto de color ver y que en el source se ve asi: <cite>www.<b>asd</b>.com/</cite> tiene etiqueta de bold y tampoco me puedo guiar por las etiquetas bold porque no todas las web tienen el mismo formato.

Por feme

5 de clabLevel



 

firefox

 

Cristalab BabyBlue v4 + V4 © 2011 Cristalab
Powered by ClabEngines v4, HTML5, love and ponies.