Skip to content

Ein Python webscraper für den Coach der Provadis Hochschule.

Notifications You must be signed in to change notification settings

Schmiddisen/Provadis-Scraper

Repository files navigation

Provadis Scraper

Dieses Projekt scrapt Dateien von der Provadis Coach Website und speichert sie lokal. Es unterstützt sowohl lokale Ausführung als auch die Ausführung in einem Docker-Container.

Installation mit Python (keine Git-Integration)

Für Docker, Installation mit Docker

Voraussetzungen

  • Python 3.6+
  • Git
  • Microsoft Edge oder Firefox muss auf dem System installiert sein

Virtuelle Umgebung einrichten

  1. Navigieren Sie zum Projektverzeichnis:

    cd /path/to/your/project
  2. Erstellen Sie eine virtuelle Umgebung:

    python3 -m venv venv
  3. Aktivieren Sie die virtuelle Umgebung:

    • Auf Linux/MacOS:
      source venv/bin/activate
    • Auf Windows:
      .\venv\Scripts\activate
  4. Installieren Sie die Python-Pakete:

    pip install -r requirements.txt
  5. Erstellen Sie eine .env Datei mit Email und Passwort:

    [email protected]
    PASSWORD=your_password
    
  6. Ein Ordner mit dem Namen "Provadis-Coach-Mirror" muss einen Ordner "über" dem sein, in dem das Script ausgeführt wird. Beispielhafte Ordnerstruktur:

    Dokumente
    ├── Provadis-Coach-Mirror
    └── Provadis-Scraper
        ├── main.py
        ├── docker_main.py
        ├── download_files.py
        ├── scraper.py
        ├── utils.py
        ├── requirements.txt
        └── README.md
    

Ausführung

Für die normale Ausführung, folgen Sie den untenstehenden Schritten:

python main.py [Anzahl_der_Dateien] [headless] [browser]

Beispiel:

python main.py 1500 True firefox

Docker-Setup

Docker Voraussetzungen Docker installiert auf dem System

Docker-Konfiguration

  1. Erstellen oder aktualisieren Sie die .env Datei im Projektverzeichnis mit den folgenden Inhalten:

    [email protected]
    PASSWORD=your_password
    GIT_USERNAME=your_github_username
    GIT_PAT=your_personal_access_token
    GIT_REPO=your_repository_url
    

    Für die Variable GIT_PAT müssen Sie einen PAT generieren.

Docker-Container erstellen und ausführen

Bauen Sie das Docker-Image:

docker build -t provadis-scraper .

Führen Sie den Docker-Container aus:

docker run -d --name provadis-scraper-container provadis-scraper

Der Scraper wird alle 10 Minuten ausgeführt und synchronisiert die Dateien mit Ihrem Git-Repository.

About

Ein Python webscraper für den Coach der Provadis Hochschule.

Resources

Stars

Watchers

Forks

Packages

No packages published