Suche auf lima-city
-
in: RSS content:encoded und CDATA mit SimpleXML auslesen ?
geschrieben von geoname
Stichwort: Namespace
Beispiele für Ausgabe von <content:encoded> als (SimpleXML) Object, String und Array
<?php // -------------------------------------------------------- header("Content-Type: text/html; charset=utf-8"); // -------------------------------------------------------- $sourceurl = 'deine_xml_datei.xml'; $xmlobj = simplexml_load_file($sourceurl, null, LIBXML_NOCDATA); print "<br />\n"; print "<br />\n"; print "<br />\n"; $ns = array(); // ----- Namespace Array $ns['content'] = 'http://purl.org/rss/1.0/modules/content/'; ## $ns['wfw'] = 'http://wellformedweb.org/CommentAPI/'; ## $ns['dc'] = 'http://purl.org/dc/elements/1.1/'; $i=0; foreach($xmlobj->channel->item as $item) { $content = $item->children($ns['content']); print "<hr />\n"; print "<h2>" . $item->title . "</h2>\n"; print "<p>" . $item->pubDate . "</p>\n"; print "<p>" . $item->guid . "</p>\n"; $content_object = $content; print "<pre style=\"margin:4px; padding:4px; background:#FFFFCC; text-align:left;\">\n"; print htmlentities( print_r($content_object, true) ); print "</pre>\n"; print "<br />\n"; print "<br />\n"; print "<br />\n"; $content_string = (string)$content->encoded; print "<pre style=\"margin:4px; padding:4px; background:#FFFFCC; text-align:left;\">\n"; print htmlentities( print_r($content_string, true) ); print "</pre>\n"; print "<br />\n"; print "<br />\n"; print "<br />\n"; $content_array = get_object_vars($content); print "<pre style=\"margin:4px; padding:4px; background:#FFFFCC; text-align:left;\">\n"; print htmlentities( print_r($content_array, true) ); print "</pre>\n"; print "<br />\n"; print "<br />\n"; print "<br />\n"; $i++; } // -------------------------------------------------------- print "<br />\n"; print "<br />\n"; print "<br />\n"; print "<pre style=\"margin:4px; padding:4px; background:#DEDEDE; text-align:left;\">\n"; print_r($xmlobj); print "</pre>\n"; print "<br />\n"; print "<br />\n"; print "<br />\n"; // -------------------------------------------------------- ?>
ich denke das ist die "saubere" Lösung als mit str_replace() das "':encoded" zu entfernen
:)
-
in: Impressum-Crawler + Datenschutz
geschrieben von geoname
autobert schrieb:
Ist auch nicht so, diese Dienste beachtenden Disallow-Hinweis der robots.txt bzw. die Metainformationen.
dann müsste man die Crawler Agent Names ja vorher kennen, aber
a) die kann man garnicht alle kennen und
b) die können ihren Crawler-Name auch jederzeit ändern
Dass man Name+Anschrift in sein eigenes Impressum schreiben muss ist klar
aber das andere diese Daten automatisiert auslesen und auf deren Webseite
ungefragt veröffentlichen, ist - meiner Meinung nach - ganz klar Verstoß gegen Datenschutz
mal überspitzt gesagt:
eine Bank muss ja auch nicht jeden Bankräuber per Namen kennen,
um Ihm zu sagen, Du darfst meine Bank nicht ausrauben,
Warum soll man dann als Domain-Inhaber jeden Crawler einzeln sagen müssen,
das er die Seite nicht durchsuchen darf
Man darf doch grundsätlich nicht einfach Inhalte von fremden Seiten veröffentlichen,
Stichwort: Content-Klau
und bei Personen-Daten (Name+Anschrift) gilt das wohl hoffentlich auch / erst recht ...
ich finde es auch echt erschreckend, das sich sogar mehrere "deutsche" Seiten sowas trauen,
für mich ist das eine Form von SPAM buw. Content-Klau
um Suche nach dem Name (oder der Domain) abzugreifen,
unter verwendung "geklauter" Daten (Inhalte)