kostenloser Webspace werbefrei: lima-city


Tabellen aus hmtl-Dateien effizient exportieren...

lima-cityForumDie eigene HomepageHTML, CSS & Javascript

  1. Autor dieses Themas

    moj

    moj hat kostenlosen Webspace.

    Hallo miteinander... folgende Herausforderung...

    mehrere html tag/dokument">Dokumente... und in jeder befindet sich eine gleichgeartete 2 spalltige Tabelle... wie bringt man die jetzt möglichst effektiv zusammen... irgendwas mach ich falsch... die copy und paste haut auch nicht wirklich hin... mal geht die tabelle ganz normal nach rechts, mal alles nach unten. Gibts da irgendwas, was man beachten muss bei den HTML Editoren.... gibts da einen empfehlenswerten ?


    Hab noch nie mit so Dingern ausgiebiger gearbeitet... Vielleicht ist auch irgendwas an den Java Einstellungen falsch... ich weiß es nicht... ich weiß nur, dass es irgendwie anders gehen muss....
    also wie kriegt man das drum rum von der Tabelle weg und die Datensätze mit möglichst wenig Zeitaufwand in eine tabellarische oder csv Datei? :-) Vielleicht weiß ja einer was. Danke schon mal...

    Achja, von der Softwäre her... ich arbeite aktuell am Mac... hab aber auch einen tauglichen Ubuntu / Win7 Desktop Rechner hier stehen... bin für alle Lösungsvorschläge offen... jetzt seid ihr am Zug. :-)
  2. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

  3. hackyourlife

    Moderator Kostenloser Webspace von hackyourlife

    hackyourlife hat kostenlosen Webspace.

    Wenn du die Tabellen sowie eventuell die Ergebnisse deiner Versuche postest kann man dir weiterhelfen…
  4. Hallo,
    zum einen das:
    hackyourlife schrieb:
    Wenn du die Tabellen sowie eventuell die Ergebnisse deiner Versuche postest kann man dir weiterhelfen…

    zum andern das:
    moj schrieb:
    Hallo miteinander... folgende Herausforderung...

    mehrere html Dokumente... und in jeder befindet sich eine gleichgeartete 2 spalltige Tabelle... wie bringt man die jetzt möglichst effektiv zusammen...

    Ausschneiden und zusammenkleben :-)
    moj schrieb:
    irgendwas mach ich falsch... die copy und paste haut auch nicht wirklich hin

    Hast du denn den Quellcode oder die Ansicht im Browser kopiert?
    moj schrieb:
    mal geht die tabelle ganz normal nach rechts, mal alles nach unten.

    Seitwann geht, also läuf?, eine Tabelle ganz normal nach rechts?
    moj schrieb:
    Gibts da irgendwas, was man beachten muss bei den HTML Editoren

    Ja, die meiseten müssen installiert sein. Außerdem musst du HTML Code schreiben können.
    moj schrieb:
    gibts da einen empfehlenswerten ?

    Ich nutze Notepad++, aber wenn du das HTML nicht selber schreiben willst, dann kannst du auch Frontpage von Microsoft nutzen.
    moj schrieb:
    Hab noch nie mit so Dingern ausgiebiger gearbeitet

    Dann mach das doch besser mal, bevor du das Nächste Thema schreibst.
    moj schrieb:
    Vielleicht ist auch irgendwas an den Java Einstellungen falsch

    Ich glaube du meinst Javascript, denn Java != Javascript. Außerdem haben die Javascript Einstellungen nichts mit HTML zu tun, sondern nur mit Javascript.
    moj schrieb:
    also wie kriegt man das drum rum von der Tabelle weg und die Datensätze mit möglichst wenig Zeitaufwand in eine tabellarische oder csv Datei? :-)

    Was ist eine tabellarische Datei?
    moj schrieb:
    Achja, von der Softwäre her... ich arbeite aktuell am Mac... hab aber auch einen tauglichen Ubuntu / Win7 Desktop Rechner hier stehen...

    Softwäre? Ich will nicht behaupten, dass ich immer alles richtig schreibe, aber bitte änder das noch mal ;-)

    Ein Tipp von mir: Bitte stelle deine Fragen das nächste mal verständlicher, vielleicht auch mit Codebeispielen. Gegen Rechtschreibfehler kannst du kostenlos die Textprüfung von Duden nutzen. Bitte nimm das jetzt nicht als Beleidigung, sondern als Aufruf, das nächste mal sorgfältiger zu tippen, ok? Bitte vermeide auch einen Text... in dem in jedem Satz... 5x ein "..." vorkommt...
    MFG THWBM
  5. Autor dieses Themas

    moj

    moj hat kostenlosen Webspace.

    Na klar, ich nehm's als Aufruf mein Leben ein klein wenig auf die Reihe zu bekommen...

    Ansonsten naja, ich wollte keine Screenshots posten, da ich ehrlich gesagt nicht weiß ob der Download von Seiten illegal ist...nichts desto trotz, scheint es wohl da keine besonders merkenswerte Verbreitung eines solchen Problems zu geben. Naja, ich werd wohl noch etwas rumprobieren, und irgendwann wird es schon gehen... ggf. meld ich mich noch mal, wenns gar nicht gehen sollte... Danke euch beiden.
  6. moj schrieb:
    Na klar, ich nehm's als Aufruf mein Leben ein klein wenig auf die Reihe zu bekommen...

    Ansonsten naja, ich wollte keine Screenshots posten, da ich ehrlich gesagt nicht weiß ob der Download von Seiten illegal ist...nichts desto trotz, scheint es wohl da keine besonders merkenswerte Verbreitung eines solchen Problems zu geben. Naja, ich werd wohl noch etwas rumprobieren, und irgendwann wird es schon gehen... ggf. meld ich mich noch mal, wenns gar nicht gehen sollte... Danke euch beiden.
    was du dazu brauchst, heißt ''scraping". aber das hat mit copy-paste nichts zu tun ;)
  7. czibere schrieb:
    scraping[/b]". aber das hat mit copy-paste nichts zu tun ;)

    Wie war das doch gleich mit den Kanonen und den Spatzen? :wink:

    Was er braucht, ist ein wenig Grundverständnis für den Aufbau von Tabellen in HTML.
    Damit sollte das Zusammenführen zweier, gleichartiger Tabellen (ich interpretiere die Frage als speziellen, einmaligen Fall).. Dafür sollte copy&paste durchaus reichen, wenn man weiß, wo die Markierung anzusetzen ist.

  8. Eine Tabelle ist im HTML Quelltext immer eindeutig identifizierbar.

    Lade die entsprechenden HTML Dateien als Textdatei mit einer Programmiersprache deiner Wahl und lese sie zeilenweise aus, suche nach dem Start Tag der Tabelle und kopiere jede Zeile ab dem Tag dorthin wo du die Tabelle haben möchtest bis die aktuell zu kopierende Zeile den End Tag der Tabelle enthält und brich dann ab (bei genau einer Tabelle) oder suche weiter um ev. weitere Tabellen im Dokument zu finden.

    Je nach deinem Kentnisstand könntest du eine HTML Datei auch als spezielle XML Datei oder gar mit einem HTML Parser importieren, welche Möglichkeiten du hier hast hängt in hohem Maße von der von dir verwendeten Programmiersprache und den zur Verfügung stehenden Bibliotheken ab.
  9. fatfreddy schrieb:
    czibere schrieb:
    scraping[/b]". aber das hat mit copy-paste nichts zu tun ;)

    Wie war das doch gleich mit den Kanonen und den Spatzen? :wink:

    Was er braucht, ist ein wenig Grundverständnis für den Aufbau von Tabellen in HTML.
    Damit sollte das Zusammenführen zweier, gleichartiger Tabellen (ich interpretiere die Frage als speziellen, einmaligen Fall).. Dafür sollte copy&paste durchaus reichen, wenn man weiß, wo die Markierung anzusetzen ist.

    wollte er nicht so einfach wie automatisch vorgehen?? das soll also copy and paste heißen!!??
    wir haben offensichtlich andere vorstellungen von automatic (womöglich sogar er auch!)



    fatfox schrieb:
    Eine Tabelle ist im HTML Quelltext immer eindeutig identifizierbar.

    Lade die entsprechenden HTML Dateien als Textdatei mit einer Programmiersprache deiner Wahl und lese sie zeilenweise aus, ....

    Je nach deinem Kentnisstand könntest du eine HTML Datei auch als spezielle XML Datei oder gar mit einem HTML Parser importieren, welche Möglichkeiten du hier hast hängt in hohem Maße von der von dir verwendeten Programmiersprache und den zur Verfügung stehenden Bibliotheken ab.


    also ... yo
    ich würde sicherlich xml nehmen (weil ohne hin und daher ein jede html-datei als xml sich einzulesen erlaubt ;)

    ist jetzt die kanonade auf die spatzen beantwortet??
  10. czibere schrieb:
    wollte er nicht so einfach wie automatisch vorgehen??

    Tut mir leid, aber die Anforderung "automatisch" kann ich seinen Beiträgen nicht entnehmen. Eventuell haben wir andere Vorstellungen von dem, was man in Fragen hineininterpretieren kann. :wink:

  11. fatfreddy schrieb:
    ... , was man in Fragen hineininterpretieren kann. :wink:
    wohl wohl!!
    da sind wir eine meinung ^_°
  12. s**************3

    Hallo,
    moj schrieb:
    mehrere html Dokumente... und in jeder befindet sich eine gleichgeartete 2 spalltige Tabelle...
    ... mal geht die tabelle ganz normal nach rechts, mal alles nach unten. Gibts da irgendwas, was man beachten muss bei den HTML Editoren.... gibts da einen empfehlenswerten ?
    ...
    eine tabellarische oder csv Datei

    willst du das in eine HTML-Datei oder in eine Tabellenkalkulation haben? In Html ist die Formatierung egal so lang die Tags richtig sind, das produziert wenn du aus dem Seitenquelltext in eine Tabellenkalkulation kopierst alles mögliche.
    Tabellenkalkulation mache ich immer so, dass ich die Seite ganz normal im Browser anzeigen lasse, das kopiere was ich will und es in eine neue Tabelle einfüge. Moderne Tabellenkalkulationen haben da recht gute Filter. Gefällt dir das Ergebnis nicht kannst du mit "Einfügen..." (nennt sich doch in deutschnen Versionen so, auf englisch ist es "Paste special") noch etwas Feintuning machen. Wichtig ist halt nur das zu markieren, was man wirklich will. Da braucht man etwas Übung oder man löscht ggf. ein paar Leerzeilen oder leere Zellen später manuell raus.

    LG Strommanager
  13. Autor dieses Themas

    moj

    moj hat kostenlosen Webspace.

    czibere schrieb:
    was du dazu brauchst, heißt ''scraping". aber das hat mit copy-paste nichts zu tun ;)

    Na holla! Mein heutiges Feierabendbier trink ich, glaub ich, auf deine Gesundheit! ;-) Das hört sich schon mal super an. Kannst du da was empfehlen? Sollte ich irgendwas beachten? Ist das legal?
  14. moj schrieb:
    czibere schrieb:
    was du dazu brauchst, heißt ''scraping". aber das hat mit copy-paste nichts zu tun ;)

    Na holla! Mein heutiges Feierabendbier trink ich, glaub ich, auf deine Gesundheit! ;-) Das hört sich schon mal super an. Kannst du da was empfehlen? Sollte ich irgendwas beachten? Ist das legal?
    no dann :prost:
    empfehlen kann ich dir xml ;) beachten musst du nix (google und noch 1-2 [so wie nsa ...] tun das auch ;) daher ist das zu mindest nicht illegal ;))
    und das geht watschen einfach. hier ein beispiel. der code dazu ist
    <?php
    // czibere.lima-city.de/_forum/moj/tabellen-aus-hmtl-dateien-effizient-exportieren.php
    
    error_reporting(E_ALL | E_STRICT);
    
    $url1 = 'http://czibere.lima-city.de/_forum/moj/table1.html';
    $url2 = 'http://czibere.lima-city.de/_forum/moj/table2.html';
    $xml1 = simplexml_load_file(rawurlencode($url1));
    $xml2 = simplexml_load_file(rawurlencode($url2));
    
    echo '<pre>'.print_r($xml1,true);
    exit('<hr />'.print_r($xml2,true));
    und wenn jetzt ein paar leute den kopf schütteln, dass ich mit simplexml html parse ... no dann ... gute nacht ;)
    in den 2 xml objekten kannst dich durchhangeln wie von den funktionen von simplexml unterstützt wird um die tabellendaten zu bearbeiten. ich denke hier hauptanteilich an SimpleXMLIterator
  15. Autor dieses Themas

    moj

    moj hat kostenlosen Webspace.

    czibere schrieb:
    und das geht watschen einfach.


    Ja, ok, wenn du das sagst, dann vertrau ich mal darauf, dass ich das auch irgendwann so sehen kann. :wink: Aber nachdem, was ich mir jetzt gestern und heute alles dazu durchgelesen habe, weiß ich schon mal, dass es das ist, was ich suche. Vielen lieben Dank noch mal!
  16. moj schrieb:
    czibere schrieb:
    und das geht watschen einfach.
    Ja, ok, wenn du das sagst, dann vertrau ich mal darauf, dass ich das auch irgendwann so sehen kann. :wink: Aber nachdem, was ich mir jetzt gestern und heute alles dazu durchgelesen habe, weiß ich schon mal, dass es das ist, was ich suche. Vielen lieben Dank noch mal!
    auf dein pn
    Ich will diese Seite auslesen:
    allrecordlabels.com
    bzw. eben nur eine liste mit den labels haben.
    habe ich dann das gefunden: all.html.

    das auslesen geht bei lima leider nur bis knapp über 50% (die ganze liste ist über 22000 labels). hier kannst sehen (ganz unten), warum der script abbricht.

    bevor ich jetzt zeit investiere in die sache, sehe dir das an und sag es, ob es in eine akzeptable richtung geht. (der select ist nur die ersten 12 labels, dann kommen die labeldaten als text und am ende ein iframe mit der labelseite.)

    und wenn es ok ist, dann musst du schon genau sagen wie du die daten haben willst.
  17. Autor dieses Themas

    moj

    moj hat kostenlosen Webspace.

    Hi czibere...
    sorry für die späte Antwort hier.
    Also...
    bevor ich jetzt zeit investiere in die sache, sehe dir das an und sag es, ob es in eine akzeptable richtung geht. (der select ist nur die ersten 12 labels, dann kommen die labeldaten als text und am ende ein iframe mit der labelseite.)


    Das hatte ich dir glaub ich bereits geschrieben, so brauch ich's nicht. Trotzdem schön geworden.:wink:

    Zu deiner PN:
    ich habe die spalten 'Label;City;U.S. State;Country;Description;Note;Genres;Artists;bogus;URL'. wo in der spalte 'bogus' ein 1-ner steht, muss man hand anlegen. wenn die dazupassende seiten anschaust, kannst gleich erkennen, warum der fehlerhafte behandlung. aber so weit ich es sehe, es hält sich in rahmen.


    "Hält sich im Rahmen" - ja, so scheint es zunächst wirklich... aber da sind wirklich viele, die entweder Quatsch sind oder 5 Jahre alt. Oder zu alt, dass es der Browser anzeigen kann - so kommts einem vor....
    Wenn von den über 22000 noch 10000 wegfallen, ist das schon realistisch. Hier das zum Beispiel... http://plusminusrecords.com/ ;-) Naja, immerhin einen Screenshot wert. :-)

    Also falls du mal (oder sonst wer ) mal von einem Tool gehört hast, der Webseiten, die die die letzten x-Jahre nicht mehr aktualisiert wurden, filtern kann...

    Aber alles in allem, genau so wärs wirklich perfektomat. Überragend! Wo kann ich dich für Web-Pulitzerpreis vorschlagen? :wink:
    Da wär mir schon jede Menge Arbeit abgenommen. Die URL geht zwar noch nicht direkt hin, wenn das noch irgendwie möglich/machbar wär, dann wär ich wunschlos glücklich. Aber ums Händische komm ich vermutlich nicht rum, daher ist das so ists auch schon sehr, sehr schön und mehr als top! Bin beeindruckt.
  18. moj schrieb:
    ... aber da sind wirklich viele, die entweder Quatsch sind oder 5 Jahre alt. Oder zu alt, dass es der Browser anzeigen kann - so kommts einem vor ...
    werden wir ausfiltern ;)
    ... Aber ums Händische komm ich vermutlich nicht rum ...
    wenn es um arbeit geht, muss man wohl hand anlegen ;)

    also das ganze werden wir so umgestalten, dass alles in eine datenbank kommt (weil die ganzen csv schon über 5GB wigt). dort wird dann gefiltert, geprüft &c.

    du wirst dann hier sehen können (was allerdings noch 1-3 tage dauert - werde ich kund tun ;)
  19. moj schrieb:
    Also falls du mal (oder sonst wer ) mal von einem Tool gehört hast, der Webseiten, die die die letzten x-Jahre nicht mehr aktualisiert wurden, filtern kann...

    Wenn überhaupt, dann hat die "Way back Machine" diese Infos zu bieten. Leider auch nicht vollständig für alle existenten Seiten im Web. Auswerten müsstest Du diese Informationen aber auch weiterhin selber. Wenn Du diese Aufgabe komplett selber übernehmen willst, um mittelfristig für dich dieseAktualisierungsdaten verfügbar zu haben, mußt Du halt regelmäßig einen Snapshot (eine Prüfsumme reicht vermutlich für deine Zwecke) des Inhaltes der betreffenden Seite erstellen und diesen mit aktuellen Daten vergleichen. Wer sollte für dich diese Aufgabe, was eine x-beliebige Website betrifft, auch sonst übernehmen?

  20. fatfreddy schrieb:
    ... Wenn überhaupt, dann hat die "Way back Machine" diese Infos zu bieten ...
    yo! wann hast du das letzte mal dort abfragen gemacht? ich versuche jetzt irgendwie zu erreich, geht aber nicht (nur pingen).
  21. czibere schrieb:yo! wann hast du das letzte mal dort abfragen gemacht? ich versuche jetzt irgendwie zu erreich, geht aber nicht (nur pingen).


    Justamente jetzt, nach deiner Frage. Und das sogar erfolgreich. :wink:
  22. Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden!

    lima-city: Gratis werbefreier Webspace für deine eigene Homepage

Dir gefällt dieses Thema?

Über lima-city

Login zum Webhosting ohne Werbung!