In diesem Tutorial zeige ich, wie man in 10 Schritten seine eigene Suchmaschine erstellen kann.
Willst Du schon seit langem mal eine eigene Suchmaschine entwickeln? Möchtest Du ein durchsuchbares Verzeichnis für Websites oder Dokumente eines bestimmten Themas zur Verfügung haben? Dann ist dieses Tutorial genau richtig für dich.
Die einzelnen Artikel zu diesem Tutorial werde ich in den nächsten Wochen schrittweise hier auf meinem Blog veröffentlichen. Sobald der nächste Artikel erschienen ist, wird er unten in der Übersicht “In 10 Schritten zur skalierbaren Suchmaschine” verlinkt.
WICHTIG: PHP ist nicht die performanteste Sprache für eine Suchmaschine und MySQL ist nicht die beste Wahl für eine Suchmaschinen-Datenbank! Bei diesem Tutorial geht es nicht darum ein zweites Google mit tausenden von Servern zu entwickeln, sondern um ein Tutorial und eine einfache Suchmaschine.
Für wen ist dieses Tutorial geeignet?
Für dieses Tutorial solltest du zumindest PHP-Grundkenntnisse mitbringen und PHP auf deinem Rechner installieren können.
Was ist das Ziel des Tutorials?
Nach dem Tutorial hast Du ein Grundverständnis dafür, wie Suchmaschinen / Web-Crawler funktionieren und hast eine funktionsfähige, einfache – aber skalierbare – Suchmaschine zur Verfügung, die du für deine eigenen Projekte nutzen kannst.
Über mich
Ich arbeite seit dem 2010 hauptberuflich als Softwareentwickler. Im Rahmen meiner Tätigkeit habe ich vor allem an Webportalen und webbasierten ERP- und CRM-Systemen mitgearbeitet. Bei mehreren Projekten hatte ich mit Fulltext-Searchengines zu tun – die der Kern jeder vernünftigen Suchmaschine sind. Da ich für ein aktuelles Projekt einen Web-Crawler für bestimmte Arten von Websites benötige, habe ich mich entschieden, meine Erfahrungen aus diesem Projekt in einem Tutorial zu veröffentlichen.
In 10 Schritten zur skalierbaren Suchmaschine
- Einrichtung der PHP-Umgebung
- Erstellen des Symfony-Projekts
- Datenstruktur analysieren und Entities erstellen
- Suchprozess analysieren / Wie arbeiten Web-Crawler?
- Entwicklung des Web-Crawlers:
- Erste Suchphase: Hinzufügen von URLs
- Zweite Suchphase: Herunterladen und Speichern der URL / der Website
- Dritte Suchphase: Parsen der heruntergeladenen Seiten
- Vierte Suchphase: Verarbeiten der geparsten Daten
- Backend
- Dashboard erstellen
- Formulare / Eingabemasken für das Hinzufügen und Bearbeiten der URL-Datenbank
- Frontend
- Formular für die Suche
- Anzeigen der Suchergebnisse
- Eingrenzen der Suchergebnisse durch Filter
- Qualität der Suchergebnisse verbessern
- Integration einer Fulltext-Searchengine (Volltextsuche)
- Parallelverarbeitung / Skalieren des Systems
- Vorbereiten der Datenbank
- Erstellen mehrere Nodes (V-Server / Container) für das Crawlen und Parsen