Busqueda de contenidos dentro de PDF's

Citar

Escrito el 02 Jun 2008 03:14 pm

Question: Como $%&="$ le hacen los buscadores para "leer" ficheros pdf y conocer su contenido para mostrarlo como resultado de una busqueda.?

Es php.? otro lenguaje.? artes ocultas.?

Por mauril26

161 de clabLevel

Envíale un mensaje privado Email

Citar

Escrito el 04 Jun 2008 02:17 pm

[respuesta a mi mismo]
Al menos en servidores linux (debian etch) se puede utilizar el comando "pdftohtml" o "pdftotext" para convertir el pdf en algo legible y poder indexar su contenido...

Por otra parte para indexar contenido de archivos .odt basta (al menos solo probado en linux - debian etch) con extraer solo el archivo (comando unzip) "content.xml" y extraer el texto de allí...

__________________________________________________________
__________________________________________________________

Gracias mauril 26, me das una idea para poder buscar segun contenido dentro de "pdf's" y como bonus track lo mismo con "odt's".

__________________________________________________________
__________________________________________________________

De nada, sigo investigando formas mas "optimas"

Por mauril26

161 de clabLevel

Envíale un mensaje privado Email

Citar

Escrito el 04 Jun 2008 03:14 pm

Es un problema que no se plantea muy seeguido. Pero tu aproximación es acertada. Investigaré para tener en cuenta y también poder encontrar una solución entre todos.

Exitos!

Por Necrophasto

Claber

148 de clabLevel

Genero:Masculino

Envíale un mensaje privado Email Web

Diseñador gráfico y web

@viktormorales

Citar

Escrito el 04 Jun 2008 04:33 pm

Venga, opino que deberia ser un Posit ya que es una muy buena solucion

Por jpcw

Claber

1715 de clabLevel

1 tutorial

Genero:Masculino

Envíale un mensaje privado Web

AlgoritmicBrainDesigner

@jpcw

Citar

Escrito el 04 Jun 2008 07:44 pm

vote for mauril26... jaja

Nah... En fin:

Resumen

PDF -> (en linux) utilizar pdftotxt (ó pdftotext, no recuerdo exactamente) ó pdftohtml (el que yo uso).

OpenOffice en general -> descomprimir el archivo (linux -> unzip) y obtener el archivo "content.xml".

.doc -> con el fread basta, eso si, la lectura traerá muuucha "basura".

.xls -> http://www.cristalab.com/tips/38945/abrir-y-leer-archivos-excel-con-php.

.ppt, .pps -> :twisted:

el que sepa de esos 2 ultimos que avisen.!!! y el que lo sepa para servidores bajo windows tambien que avise...

Por mauril26

161 de clabLevel

Envíale un mensaje privado Email

Busqueda de contenidos dentro de PDF's

Escribe una respuesta rapida