PDF parsen (PDF zu String) in PHP

lima-city → Forum → Programmiersprachen → PHP, MySQL & .htaccess

Autor dieses Themas
aklasse

aklasse hat kostenlosen Webspace.

10:17, 14.10.2011
Hi Leute,
ich möchte ein PDF Dokument für die Verwendung in einer Datenbank auslesen, und habe mir die finger bereits wund gegoogelt.

Folgendes ist das PDF Dokument:
http://www.haufen.at/test/pdf/2011_10_17-2011_10_21%20Klassen%20MagA%20V05%20offiziell%20Vertretung%20V2.pdf

Daraus möchte ich die Inhalte lesen, und wenn es nur ein großer zusammengesetzter String ist.

Falls jemand eine Lösung hat, bitte posten!

//EDIT

Habe es geschafft mit den Tool pdf2text folgendes zu bekommen. Helfen tut mir das leider nicht.
http://www.haufen.at/test/pdf/indexv1.php

Irgendwelche Tipps

Vielen Dank
Stefan

Beitrag zuletzt geändert: 14.10.2011 10:58:41 von aklasse
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

lima-city: Gratis werbefreier Webspace für deine eigene Homepage
anlagegeld

anlagegeld hat kostenlosen Webspace.

14:24, 14.10.2011
Hallo
ich denke es könnte mit OCR - Optical Character Recognition gehen

z.B. http://www.phpclasses.org/phpocr aber keine Ahnung ob das auch mit PDF geht

Vielleicht hilft ja auch das hier http://php.livejournal.com/295413.html?thread=4830453#t4830453 bei deinem Code

sonst kennst Du sicher die Kommntare bei http://de3.php.net/manual/de/ref.pdf.php

oder das hier http://www.fpdf.de/forum/showthread.php?t=1655 Hinweise in Antw. beachten

oder hier http://www.php.de/php-tipps-2007/22298-pdf-zu-php-3.html

.... scheint garnisht so einfach zu sein

habe selber Interesse an dem Thema ... aber wenn dann eher pdf2html.
also nicht nur reiner text sondern alles, auch Tabellen, Bilder, etc.
Autor dieses Themas
aklasse

aklasse hat kostenlosen Webspace.

19:09, 16.10.2011
OCR ist prinzipiell nicht nötig da der Text wirklich als Text vorhanden ist. Das muss einfacher gehen.

Ich versuche es bisher mit folgender Klasse: http://www.haufen.at/test/pdf/class.pdf2text.txt

Damit kann ich problemlos PDFs parsen und bekomme wunderschonen plain Text.
Aus http://www.haufen.at/test/pdf/sample.pdf wird http://www.haufen.at/test/pdf/indexsample.php
Genau wie gewünscht.

Nur bei meinem Supplierplan funktioniert es nicht. Die Ergebnisse sehen bisher nämlich so aus:
http://www.haufen.at/test/pdf/indexv1.php

Da läuft irgendetwas schief.

Falls Jemand helfen kann, pls melden!

Liebe Grüße
Stefan
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

lima-city: Gratis werbefreier Webspace für deine eigene Homepage

Dir gefällt dieses Thema?

Über lima-city

lima-city bietet dir kostenlosen und werbefreien Speicherplatz für Deine Homepage. Sofort anmelden und direkt loslegen mit Webspace, PHP, Datenbanken, günstigen Domains und einer tollen Community!

kostenloser Webspace werbefrei: lima-city

PDF parsen (PDF zu String) in PHP

lima-city → Forum → Programmiersprachen → PHP, MySQL & .htaccess

Dir gefällt dieses Thema?

Über lima-city

Login zum Webhosting ohne Werbung!