Regex Pattern mit String Ausschluss
lima-city → Forum → Programmiersprachen → PHP, MySQL & .htaccess
anwenden
array
aufruf
auslese
bedingung
code
durchlauf
ergebnis
flag
gesuchter code
hauptsache
kleinschreibung
links code
match
nachbearbeitung
ressource
review
tag
text
url
- 
    
    Hallo
 
 ich möchte alle Links aus einer Seite tag/auslese">auslesen, die auf eine Datei im Ordner reviews/ zeigen
 
 leider sind die Links jeweils 2x vorhanden, einmal mit dem Link-Text = "der Titel des Review"
 und nocheinmal immer mit dem Link-Text = "Reviews"
 
 BSP:
 $content = ' <p>... <a href="reviews/aaa.php">AAA</a> ... <a href="reviews/aaa.php">Reviews</a> ... </p> <p>... <a href="reviews/bbb.php">BBB</a> ... <a href="reviews/bbb.php">Reviews</a> ... </p> <p>... <a href="reviews/ccc.php">CCC</a> ... <a href="reviews/ccc.php">Reviews</a> ... </p> '; 
 
 mit folgendem Pattern bekomme ich immer "beide" links
 
 $pattern = '#<a[^>]+href\="reviews/(.*)"[^>]*>(.*)</a>#Umsi'; preg_match_all($pattern, $content, $matches, PREG_SET_ORDER); print "<pre>\n"; print_r($matches); print "</pre>\n"; 
 
 ich will aber nur den einen (ersten), bei dem der Link-Text nicht "Reviews" ist
 
 Was muss in den Pattern rein, damit ich jeweils nur den ersten Link bekomme,
 ..... also alle Links ausschließen, die als Link-Text "Reviews" haben
 
 irgend eine "wenn nicht" Bedingung zwichen <a> und </a> .... da wo jetzt *>(.*)</a> steht
 
 wie kann ich den Pattern so einstellen, das Links wie <a href="reviews/bbb.php">Reviews</a>
 keine Treffer sind, weil der Link-Text "Reviews" ist ?
 
- 
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden! lima-city: Gratis werbefreier Webspace für deine eigene Homepage 
- 
    
    Dein gesuchter Code:$content = <<< EOF <p>... <a href="reviews/aaa.php">AAA</a> ... <a href="reviews/aaa.php">Reviews</a> ... </p> <p>... <a href="reviews/bbb.php">BBB</a> ... <a href="reviews/bbb.php">Reviews</a> ... </p> <p>... <a href="reviews/ccc.php">CCC</a> ... <a href="reviews/ccc.php">Reviews</a> ... </p> EOF; $pattern = '#<a[^>]+href\=([\'"])reviews/(.*)\1[^>]*>(?(?!reviews)(.*))</a>#Umsi'; preg_match_all($pattern, $content, $matches); print_r($matches); Im Array
 hast du den gesuchten Text.$matches[3]
- 
    
    hmmm. leider nicht ganz
 mit Deinem Pattern bekomme ich immer HTML im Ergebnis,
 ausser in $matches[3], aber da dann nur den Linktext
 ich will doch aber sowohl die URLs und je Linktext dazu (einzeln)
 
 
 mit meinem ursprünglichen Pattern bekomme ich in $matches
 ... hier ohne PREG_SET_ORDER als flag
 Array ( [0] => Array ( [0] => <a href="reviews/aaa.php">AAA</a> [1] => <a href="reviews/aaa.php">Reviews</a> [2] => <a href="reviews/bbb.php">BBB</a> [3] => <a href="reviews/bbb.php">Reviews</a> [4] => <a href="reviews/ccc.php">CCC</a> [5] => <a href="reviews/ccc.php">Reviews</a> ) [1] => Array ( [0] => aaa.php [1] => aaa.php [2] => bbb.php [3] => bbb.php [4] => ccc.php [5] => ccc.php ) [2] => Array ( [0] => AAA [1] => Reviews [2] => BBB [3] => Reviews [4] => CCC [5] => Reviews ) )
 
 also alle Links doppelt
 
 
 jetzt - mit Deinem Pattern - bekomme ich in $matches
 
 Array ( [0] => Array ( [0] => <a href="reviews/aaa.php">AAA</a> [1] => <a href="reviews/aaa.php">Reviews</a> ... </p> <p>... <a href="reviews/bbb.php">BBB</a> [2] => <a href="reviews/bbb.php">Reviews</a> ... </p> <p>... <a href="reviews/ccc.php">CCC</a> ) [1] => Array ( [0] => " [1] => " [2] => " ) [2] => Array ( [0] => aaa.php [1] => aaa.php">Reviews</a> ... </p> <p>... <a href= [2] => bbb.php">Reviews</a> ... </p> <p>... <a href= ) [3] => Array ( [0] => AAA [1] => BBB [2] => CCC ) )
 
 
 also in [0], [1] und [2] ganz komisch mal mit und mal ohne umschließenden <p> Tag ?!?
 ??? warum auch immer 
 
 Mein Wunsch-Ergebnis ist
 
 [1] => Array ( [0] => aaa.php [1] => bbb.php [2] => ccc.php ) [2] => Array ( [0] => AAA [1] => BBB [2] => CCC )
 
 wobei es egal ist, in welcher Ebene von $matches
 (und egal ob PREG_SET_ORDER oder einzelne Arrays)
 hauptsache die URLs und Linktexte, außer bei Linktext = "Reviews"
 
 
 
 PS: ich hatte noch die Idee, meinen ersten Pattern zu nehmen,
 und dann einfach array_unique auf $matches[1] anwenden
 dann bekomme ich auch nur "einmal" die Links (URLs)
 
 also so ...(mit meinem Pattern und preg_match_all ohne PREG_SET_ORDER als flag)
 
 
 $resul = array(); $result_urls = array_unique($matches[1]); $result['url'] = array_merge($result_urls); $result['txt'] = array(); foreach($matches[2] as $linktext) { if ($linktext != 'Reviews') {$result['txt'][] = $linktext; } } print "<pre>\n"; print_r($result); print "</pre>\n";
 
 keine Anhnung was jetzt besser ist (Ressourcen schonender)
 gleich den "richtigen" Pattern (der noch nicht gefunden ist)
 oder die Nachbearbeitung mit array_unique etc.
 
 Beitrag zuletzt geändert: 10.6.2012 15:57:26 von grgiko
- 
    
    Eventuell so?$content = <<< EOF <p>... <a href="reviews/aaa.php">AAA</a> ... <a href="reviews/aaa.php">Reviews</a> ... </p> <p>... <a href="reviews/bbb.php">BBB</a> ... <a href="reviews/bbb.php">Reviews</a> ... </p> <p>... <a href="reviews/ccc.php">CCC</a> ... <a href="reviews/ccc.php">Reviews</a> ... </p> EOF; $pattern = '#<a[^>]+href\=([\'"])reviews/(.*)\1[^>]*>(?:reviews|(.*))</a>#Usi'; preg_match_all($pattern, $content, $matches); print_r($matches); Das Ergebnis:Array ( [0] => Array ( [0] => <a href="reviews/aaa.php">AAA</a> [1] => <a href="reviews/aaa.php">Reviews</a> [2] => <a href="reviews/bbb.php">BBB</a> [3] => <a href="reviews/bbb.php">Reviews</a> [4] => <a href="reviews/ccc.php">CCC</a> [5] => <a href="reviews/ccc.php">Reviews</a> ) [1] => Array ( [0] => " [1] => " [2] => " [3] => " [4] => " [5] => " ) [2] => Array ( [0] => aaa.php [1] => aaa.php [2] => bbb.php [3] => bbb.php [4] => ccc.php [5] => ccc.php ) [3] => Array ( [0] => AAA [1] => [2] => BBB [3] => [4] => CCC [5] => ) )
- 
    
    ja, schon besser :)
 
 aber da sind immernoch die unerwünschten Links im Ergebnis
 und anstatt Linktext = "Reviews" ist jetzt halt Leerstring als Linktext in $matches[3]
 
 also muss ich damit auch wieder "nachbearbeiten"
 und prüfen ob Elemente in $matches[3] != '' (Leerstring) bzw. mit !empty()
 
 
 z.B. irgendwie so ... entweder if (!empty($linktext)) oder if ($linktext != "")
 $ergebnis = array(); $i=0; foreach($matches[3] as $linktext) { if (!empty($linktext)) // --- oder mit: if ($linktext != "") { $ergebnis[] = array($matches[2][$i], $matches[3][$i]); } $i++; }
 
 kommt quasi auf's selbe raus
 ob ich prüfe, das kein "" (Leerstring) oder kein 'Reviews' vorkommt
 
 
 habe gehofft, ich kann direkt mit dem Pattern zum Ergebnis kommen,
 also gleich im $matches nur je die 3 Links, und nicht alle 6 (aus Beispiel)
 damit ich nicht nochmal Prüfung in Nachbearbeitung machen muss
 
 geht ja leider nicht so, das die (ganze) Regex Bedingung nicht erfüllt ist,
 wenn das böse Wort "reviews" (Groß- oder Kleinschreibung egal) darin vorkommt,
 denn auch bei gewünschten Links ist "reviews" ja Teil der URL,
 nur im Linktext darf es nicht vorkommen, aber nicht "generell nicht" ...
 
 naja, ist ok, mit der Nachbearbeitung kann ich schon leben, so geht's ja
 wäre halt nur "schöner" (und schlanker) wenn direkt mit Regex Pattern
 das würde den foreach-Durchlauf (Prüfung und neues Ergebnis bauen) ersparen
 ... aber bei ca. 10 Links pro Aufruf ist das auch nicht soooo ein großes Problem
 
 Danke !
 
 
- 
Diskutiere mit und stelle Fragen: Jetzt kostenlos anmelden! lima-city: Gratis werbefreier Webspace für deine eigene Homepage 
