kostenloser Webspace werbefrei: lima-city


Suche auf lima-city

  • in: RSS content:encoded und CDATA mit SimpleXML auslesen ?

    geschrieben von geoname

    Stichwort: Namespace

    Beispiele für Ausgabe von <content:encoded> als (SimpleXML) Object, String und Array

    <?php 
    // -------------------------------------------------------- 
    
    header("Content-Type: text/html; charset=utf-8"); 
    
    // -------------------------------------------------------- 
    
    $sourceurl = 'deine_xml_datei.xml'; 
    
    $xmlobj = simplexml_load_file($sourceurl, null, LIBXML_NOCDATA);
    
    
    print "<br />\n"; 
    print "<br />\n"; 
    print "<br />\n"; 
    
    
    $ns = array();  // ----- Namespace Array 
    
    $ns['content'] = 'http://purl.org/rss/1.0/modules/content/'; 
    
    ## $ns['wfw'] = 'http://wellformedweb.org/CommentAPI/'; 
    ## $ns['dc'] = 'http://purl.org/dc/elements/1.1/'; 
    	
    $i=0; 
    foreach($xmlobj->channel->item as $item) { 
    
    $content = $item->children($ns['content']); 
    
    print "<hr />\n"; 
    
    print "<h2>" . $item->title . "</h2>\n"; 
    print "<p>" . $item->pubDate . "</p>\n"; 
    print "<p>" . $item->guid . "</p>\n"; 
    
    $content_object = $content;
    
    print "<pre style=\"margin:4px; padding:4px; background:#FFFFCC; text-align:left;\">\n"; 
    print htmlentities( print_r($content_object, true) ); 
    print "</pre>\n"; 
    
    print "<br />\n"; 
    print "<br />\n"; 
    print "<br />\n"; 
    
    $content_string = (string)$content->encoded;
     
    print "<pre style=\"margin:4px; padding:4px; background:#FFFFCC; text-align:left;\">\n"; 
    print htmlentities( print_r($content_string, true) ); 
    print "</pre>\n"; 
    
    print "<br />\n"; 
    print "<br />\n"; 
    print "<br />\n"; 
    
    $content_array = get_object_vars($content);
    
    print "<pre style=\"margin:4px; padding:4px; background:#FFFFCC; text-align:left;\">\n"; 
    print htmlentities( print_r($content_array, true) ); 
    print "</pre>\n"; 
    
    print "<br />\n"; 
    print "<br />\n"; 
    print "<br />\n"; 
    
    $i++; 
    }
    
    // -------------------------------------------------------- 
    
    
    print "<br />\n"; 
    print "<br />\n"; 
    print "<br />\n"; 
    
    print "<pre style=\"margin:4px; padding:4px; background:#DEDEDE; text-align:left;\">\n"; 
    print_r($xmlobj); 
    print "</pre>\n"; 
    
    print "<br />\n"; 
    print "<br />\n"; 
    print "<br />\n"; 
    
    
    // -------------------------------------------------------- 
    ?>


    ich denke das ist die "saubere" Lösung als mit str_replace() das "':encoded" zu entfernen
    :)
  • in: Impressum-Crawler + Datenschutz

    geschrieben von geoname

    autobert schrieb:
    Ist auch nicht so, diese Dienste beachtenden Disallow-Hinweis der robots.txt bzw. die Metainformationen.


    dann müsste man die Crawler Agent Names ja vorher kennen, aber
    a) die kann man garnicht alle kennen und
    b) die können ihren Crawler-Name auch jederzeit ändern

    Dass man Name+Anschrift in sein eigenes Impressum schreiben muss ist klar
    aber das andere diese Daten automatisiert auslesen und auf deren Webseite
    ungefragt veröffentlichen, ist - meiner Meinung nach - ganz klar Verstoß gegen Datenschutz

    mal überspitzt gesagt:
    eine Bank muss ja auch nicht jeden Bankräuber per Namen kennen,
    um Ihm zu sagen, Du darfst meine Bank nicht ausrauben,

    Warum soll man dann als Domain-Inhaber jeden Crawler einzeln sagen müssen,
    das er die Seite nicht durchsuchen darf

    Man darf doch grundsätlich nicht einfach Inhalte von fremden Seiten veröffentlichen,
    Stichwort: Content-Klau
    und bei Personen-Daten (Name+Anschrift) gilt das wohl hoffentlich auch / erst recht ...

    ich finde es auch echt erschreckend, das sich sogar mehrere "deutsche" Seiten sowas trauen,
    für mich ist das eine Form von SPAM buw. Content-Klau
    um Suche nach dem Name (oder der Domain) abzugreifen,
    unter verwendung "geklauter" Daten (Inhalte)


Login zum Webhosting ohne Werbung!