Comunidad de diseño web y desarrollo en internet online

Busqueda de contenidos dentro de PDF's

Citar            
MensajeEscrito el 02 Jun 2008 03:14 pm
Question: Como $%&="$ le hacen los buscadores para "leer" ficheros pdf y conocer su contenido para mostrarlo como resultado de una busqueda.?

Es php.? otro lenguaje.? artes ocultas.? :?

Por mauril26

161 de clabLevel



 

firefox
Citar            
MensajeEscrito el 04 Jun 2008 02:17 pm
[respuesta a mi mismo]
Al menos en servidores linux (debian etch) se puede utilizar el comando "pdftohtml" o "pdftotext" para convertir el pdf en algo legible y poder indexar su contenido...

Por otra parte para indexar contenido de archivos .odt basta (al menos solo probado en linux - debian etch) con extraer solo el archivo (comando unzip) "content.xml" y extraer el texto de allí...

__________________________________________________________
__________________________________________________________

Gracias mauril 26, me das una idea para poder buscar segun contenido dentro de "pdf's" y como bonus track lo mismo con "odt's".

__________________________________________________________
__________________________________________________________

De nada, sigo investigando formas mas "optimas"

Por mauril26

161 de clabLevel



 

firefox
Citar            
MensajeEscrito el 04 Jun 2008 03:14 pm
Es un problema que no se plantea muy seeguido. Pero tu aproximación es acertada. Investigaré para tener en cuenta y también poder encontrar una solución entre todos.

Exitos!

Por Necrophasto

Claber

148 de clabLevel



Genero:Masculino  

Diseñador gráfico y web

mozilla
Citar            
MensajeEscrito el 04 Jun 2008 04:33 pm
Venga, opino que deberia ser un Posit ya que es una muy buena solucion

Por jpcw

Claber

1715 de clabLevel

1 tutorial

Genero:Masculino  

AlgoritmicBrainDesigner

firefox
Citar            
MensajeEscrito el 04 Jun 2008 07:44 pm
vote for mauril26... jaja ^^

Nah... En fin:


Resumen

PDF -> (en linux) utilizar pdftotxt (ó pdftotext, no recuerdo exactamente) ó pdftohtml (el que yo uso).

OpenOffice en general -> descomprimir el archivo (linux -> unzip) y obtener el archivo "content.xml".

.doc -> con el fread basta, eso si, la lectura traerá muuucha "basura".

.xls -> http://www.cristalab.com/tips/38945/abrir-y-leer-archivos-excel-con-php.

.ppt, .pps -> :twisted:

el que sepa de esos 2 ultimos que avisen.!!! y el que lo sepa para servidores bajo windows tambien que avise...

Por mauril26

161 de clabLevel



 

firefox

 

Cristalab BabyBlue v4 + V4 © 2011 Cristalab
Powered by ClabEngines v4, HTML5, love and ponies.