kostenloser Webspace werbefrei: lima-city


PDF parsen (PDF zu String) in PHP

lima-cityForumProgrammiersprachenPHP, MySQL & .htaccess

  1. Autor dieses Themas

    aklasse

    Kostenloser Webspace von aklasse

    aklasse hat kostenlosen Webspace.

    Hi Leute,
    ich möchte ein PDF Dokument für die Verwendung in einer Datenbank auslesen, und habe mir die finger bereits wund gegoogelt.

    Folgendes ist das PDF Dokument:
    http://www.haufen.at/test/pdf/2011_10_17-2011_10_21%20Klassen%20MagA%20V05%20offiziell%20Vertretung%20V2.pdf

    Daraus möchte ich die Inhalte lesen, und wenn es nur ein großer zusammengesetzter String ist.

    Falls jemand eine Lösung hat, bitte posten!

    //EDIT

    Habe es geschafft mit den Tool pdf2text folgendes zu bekommen. Helfen tut mir das leider nicht.
    http://www.haufen.at/test/pdf/indexv1.php

    Irgendwelche Tipps

    Vielen Dank
    Stefan

    Beitrag zuletzt geändert: 14.10.2011 10:58:41 von aklasse
  2. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

  3. Hallo
    ich denke es könnte mit OCR - Optical Character Recognition gehen

    z.B. http://www.phpclasses.org/phpocr aber keine Ahnung ob das auch mit PDF geht

    Vielleicht hilft ja auch das hier http://php.livejournal.com/295413.html?thread=4830453#t4830453 bei deinem Code

    sonst kennst Du sicher die Kommntare bei http://de3.php.net/manual/de/ref.pdf.php

    oder das hier http://www.fpdf.de/forum/showthread.php?t=1655 Hinweise in Antw. beachten

    oder hier http://www.php.de/php-tipps-2007/22298-pdf-zu-php-3.html

    .... scheint garnisht so einfach zu sein

    habe selber Interesse an dem Thema ... aber wenn dann eher pdf2html.
    also nicht nur reiner text sondern alles, auch Tabellen, Bilder, etc.


  4. Autor dieses Themas

    aklasse

    Kostenloser Webspace von aklasse

    aklasse hat kostenlosen Webspace.

    OCR ist prinzipiell nicht nötig da der Text wirklich als Text vorhanden ist. Das muss einfacher gehen.

    Ich versuche es bisher mit folgender Klasse: http://www.haufen.at/test/pdf/class.pdf2text.txt

    Damit kann ich problemlos PDFs parsen und bekomme wunderschonen plain Text.
    Aus http://www.haufen.at/test/pdf/sample.pdf wird http://www.haufen.at/test/pdf/indexsample.php
    Genau wie gewünscht.

    Nur bei meinem Supplierplan funktioniert es nicht. Die Ergebnisse sehen bisher nämlich so aus:
    http://www.haufen.at/test/pdf/indexv1.php

    Da läuft irgendetwas schief.

    Falls Jemand helfen kann, pls melden!

    Liebe Grüße
    Stefan
  5. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

Dir gefällt dieses Thema?

Über lima-city

Login zum Webhosting ohne Werbung!