Seiten-Crawler

Bei dem Seiten-Crawler handelt es sich um das Herzstück des OnPage SEO Analyse Plugin. Ähnlich wie Suchmaschinen oder anderen Cralwing Diensten werden die einzelnen Seiten gecrawlt und anschließend analysiert. Als Basis verwendet das Plugin dabei cURL. Hierbei werden zunächst die Artikel, Blogseiten, Kategorien usw. gecrawlt. Gefundende Links die auf weitere interne Seiten verweisen werden zunächst zwischengespeichert und anschließend ebenfalls ausgewertet. Somit wird sichergestellt, dass jede Seite ausgewertet wird, die intern mindestens einmal verknüpft ist und von extern ohne Login erreichbar ist.

Crawler Strategie

Das Crawlen der Seiten des Shops kann über zwei verschiedene Wege erfolgen, die in dem Plugin als Crawler Strategie hinterlegt werden kann.

Crawler-Strategie: Manuell

Ist diese Strategie ausgewählt, so kann das Crawlen der Seiten direkt über das Backend durchgeführt werden. Da die Analyse und Auswertung einer Seite unter Umständen recht aufwendig sein kann, ist diese Vorgehensweise nur für kleinere Shops ratsam.

Crawler-Strategie: Shell-Skript

Bei der Strategie "Shell-Skript" kann der Crawler per Shopware CLI Command gesteuert werden. 

CLI Command
bin/console dreisc:seo-crawler:crawl

Grundlegende Informationen zu den Shopware CLI Commands finden Sie unter:
https://docs.shopware.com/de/shopware-5-de/tutorials-und-faq/shopware-cli

CLI Optionen im Überblick

CLI Option
Beschreibung
CLI Option:

--threadLimit

Beschreibung:

Definiert wie viele Calls der Crawler im aktuellen Durchlauf abarbeiten soll. Pro Call wird im Normalfall eine Seite bzw. eine Analyse durchgeführt. Wird dieser Parameter nicht definiert, so werden automatisch bis zu 1.000 Calls durchgeführt.

CLI Option:

--preventRestart

Beschreibung:

Im Standard wird nach Fertigstellung des kompletten Crawlens automatisch erneut ein neues Crawling gestartet. Um dies zu unterbinden, kann die Option --preventRestart 1 gesetzt werden. In diesem Fall wird lediglich ein aktives Cralwing weitergeführt, jedoch kein neues gestartet.

Analyse zurücksetzen

Über die Schaltfläche "Analyse zurücksetzen" kann ein aktives Crawling zurückgesetzt werden. Wird das Crawling anschließend erneut gestartet, so beginnt das crawlen wieder bei dem ersten Artikel.

Über den folgenden CLI Befehl kann das zurücksetzen per Shell durchgeführt werden
bin/console dreisc:seo-crawler:reset