Comunidad de diseño web y desarrollo en internet online

buscador de prensa

Citar            
MensajeEscrito el 23 Sep 2011 09:40 am
Hola a todos, gracias por dedicar un poco de tiempo leyendo mi problema.

En mi trabajo tengo que revisar todos los dias periodicos online y publicar las noticias referentes a determinadas keywords, lo cual me toma tiempo dado que la banda ancha no es tan ancha y las paginas demoran mucho en cargar.

Estuve pensando en hacer una pagina y recolectar los buscardores de cada pagina y asi no tener que abrir cada una y esperar a que todo el contenido carge, pero no estoy seguro de que eso pueda funcionar.

Mi pregunta es hay alguna manera de que estas busquedas se hagan desde una solo browser?

por cierto, ya pense en usar los RSS, pero no todos los periodicos online lo ofrecen.

Si alguien tienen una sugerencia o idea, o sabe de alguna utilidad que haga algo similar agradeceria me lo haga saber.

Muhcas gracias nuevamente,

Vlas ^^

Por vlas73

1 de clabLevel



 

chrome
Citar            
MensajeEscrito el 24 Sep 2011 03:38 pm
en resumidas cuentas :),
estas planenado en hace run bot,
tienes algun conocimiento profundo de script?para ahcerlo rapido?
aunque tambien valen java,c++, bueno casi cualquier lenguaje de programacion, que soprote transmision de datos por sockets.
en php tienes CURL una libreria que simula conexiones http , metodos post,get. asi simularias, la visita de un navegador, en las webs. asi simularas llenado de formularios por POST y GET,ahora,
si tienes conocimientos avanzados de JAVASCRIPT podrias usar
PHANTOMJS, el cual es, javascript con librerias extras y trabaja con webkit, no solo simularias envio de forms get post, si no hacer capturas de pantalla de la web, y hacer un reporte , tambien tiene parseador xml, y otros.

Por tuadmin

Claber

598 de clabLevel



Genero:Masculino  

firefox
Citar            
MensajeEscrito el 25 Sep 2011 01:15 pm

tuadmin escribió:

en resumidas cuentas :),
estas planenado en hace run bot,
tienes algun conocimiento profundo de script?para ahcerlo rapido?
aunque tambien valen java,c++, bueno casi cualquier lenguaje de programacion, que soprote transmision de datos por sockets.
en php tienes CURL una libreria que simula conexiones http , metodos post,get. asi simularias, la visita de un navegador, en las webs. asi simularas llenado de formularios por POST y GET,ahora,
si tienes conocimientos avanzados de JAVASCRIPT podrias usar
PHANTOMJS, el cual es, javascript con librerias extras y trabaja con webkit, no solo simularias envio de forms get post, si no hacer capturas de pantalla de la web, y hacer un reporte , tambien tiene parseador xml, y otros.


Hola gracias por responder, no tengo conocimientos profundos de script pero si la disponibilidad y el deseo de aprender. Todas las soluciones que me planteas lucen interesantes y me encantaria probar con alguna que me recomiendes mas aun si sabes de algun tutorial por el cual pueda encaminarme.

El bot tendria que estar local en la maquina que lo corre o es mejor online? voy a empezar a buscar referencias acerca de lo que ya me has mencionado, a primeras me llama la atencion CURL, asi que voy a buscar algo de info acerca de eso y publico los avances y nuevamente gracias por responder.

Vlas

Por vlas73

1 de clabLevel



 

chrome
Citar            
MensajeEscrito el 26 Sep 2011 02:15 am
si es online tendria q estar en un server que permita ejecutar scripts autonomos osea que esten en procesamiento como 1 hora o 2 , mucho lio en servidores online , por que no tendras librerias disponibles, o propias, mejor en local, ya que tendras poder absoluto en la configuracion , bueno como recien empiezas no hay manuales concretos para lo que quieres, hay partes , por ejemplo busca en google un tuto de manejo de CURL, u optar por Clases que deriban y hace n uso, a lo de clases me refiero a un Objeto hablando de php claro como ejemplo te pongo esta porcion de codigo imaginario

Código PHP :

//lo que hace es simular las peticiones de un navegador el cual incluso recive cookies
//claro esta clase usa librerias como CURL o conexion de sockets
$navegador = new MyNavegador('http://algunsitio.com/registro.php');
//ahora lo que este "getInput" hace, es obtener el value de un input dela pagina solicitada
//<input type="hidden" id="__encrypt_key" name="random_id" value="n32bhdsgy24234t"/>
//como las paginas echas en asp tienen un generador de tokens q cambia constantemente
//en cada visita y es requerida para llenar un formulario
$clave_id_unico = $navegador->getInput(array('id' => '__encrypt_key'));
//llenamos nuestro form y hacemos todo lo que queramos incluso podriamos probar
//fallos de seguridad, 
$navegador->enviarForm('post',array('nombre' => 'juan perez' ,'random_id' =>$clave_id_unico ));

bueno viste que con eso simulamos un bot , osea se registra sin hacer clicks o esperar cargar paginas,
ahora digamos que hacemos un bot Spammer
usamos el mismo codigo , y nuestra clase sera capaz de conectar via proxys onlines,y renovar cookies

Código PHP :

//una version mejorada
$navegador = new MyNavegador2();
//estos proxis son imaginarios 
$navegador->agregarProxis(
'http://200.105.164.1:8081','http://200.105.164.9:80',''http://200.105.128.40:81''
);
for($i = 0;$i<100$i++):
    $navegador->randomProxy();
    $navegador->borrarCookies();
    $navegador->abrir('http://algunsitio.com/registro.php');
    $clave_id_unico = $navegador->getInput(array('id' => '__encrypt_key'));

    $navegador->enviarForm('post',array('nombre' => 'soy juan perez ' . $i ,'random_id' =>$clave_id_unico ));
endfor;

ese seria un bot spammer , claro que otras paginas tendrnan sus cuestiones de seguridad como imagenes tokens, pallabras secretas y esas cosas, pero imaginate que tengas un bot bien echo , que lo unico que te pide sera esas cuestiones de seguridad, y si eres un cabeza de esos y desarrollas un bot con capacidad de decifrar imagenes rompecaptchas uy mucho mejor jejej, pero bueno mejor a los mas real,
para tu cometido necesitas entrar a un listado de webs y extraer noticias, para eso necesitas que ,
estudiar tus objetivos,
si para entrar a sus noticias te pide cookies, alguna seguridad, imagenes ese tipo de cosas, las vas anotando,
a tenes que aprender html full,diferencias de html y xhtml, xml. bueno ya que estas en el foro de PHP , pues aprende PHP, todo lo que puedas ve chekar, los foros y los tutos de esta web hay buenos , y otros muy desactualizados, aprende a como usar el php.ini, la diferencia entre php-cgi y php-win sus ventajas , las extensiones que esta habilitadas solo en windows como el tan util y valioso COM , o en linux que tienes para manejar Hilos osea proceos hijos independientes , no te queda mucho por que leer :),
pero empeza por lo primero HTML, ya que tu objetivo son las paginas webs y las paginas webs estan echas en html,

Por tuadmin

Claber

598 de clabLevel



Genero:Masculino  

firefox
Citar            
MensajeEscrito el 26 Sep 2011 09:01 am
Muchas gracias, ya tengo con que empezar, y ahora me toca ponerme a trabajar en ello, cuando tenga algo mas concreto desarrollado lo publico para pedirte tu opinion si te parece?

Muchas gracias nuevamente :D

Vlas

Por vlas73

1 de clabLevel



 

chrome
Citar            
MensajeEscrito el 26 Sep 2011 06:30 pm
ok y recuerda, si no sabes que hace alguna funcion o clase en php busca en si sitio oficial
http://es2.php.net/
como ejemplo

http://es2.php.net/CURL

http://es2.php.net/COM

Por tuadmin

Claber

598 de clabLevel



Genero:Masculino  

firefox

 

Cristalab BabyBlue v4 + V4 © 2011 Cristalab
Powered by ClabEngines v4, HTML5, love and ponies.