Vollständige Dokumentation aller Funktionen der desktopkit Web-Oberfläche. Diese Seite beschreibt jeden Bereich der UI im Detail — von der Authentifizierung über die Screenshot-Steuerung bis hin zur API-Dokumentation.
desktopkit ist ein Toolkit zur Desktop-Automatisierung für Call-Center-Umgebungen. Es besteht aus eigenständigen Binaries, die Screenshots aufnehmen, Maus und Tastatur steuern, die Zwischenablage verwalten und Fenster kontrollieren können — alles auf Linux-Desktops (Ubuntu mit X11/Xvfb).
Die Web UI ist die grafische Oberfläche des desktopkit-server.
Sie erlaubt es, einen entfernten Linux-Desktop live zu sehen und interaktiv zu steuern
— direkt aus dem Browser, ohne VNC oder RDP. Die UI bietet:
Beim Öffnen der Web UI erscheint ein Login-Screen. Der Benutzername des Linux-Users, unter dem der Server läuft, wird automatisch angezeigt.
Geben Sie das Passwort ein und klicken Sie Login
oder drücken Sie Enter.
Das Passwort entspricht dem in /opt/desktopkit/secret hinterlegten Token.
Bei Erfolg wird ein Bearer-Token in der sessionStorage gespeichert.
Für automatisierte Zugriffe kann das Passwort direkt in der URL übergeben werden:
https://host:port/?password=mein-token
Der Login wird automatisch ausgeführt. Das ist nützlich für KI-Agenten oder Bookmarks mit gespeichertem Zugang.
sessionStorage des Browsers gespeichert
(gilt nur für den aktuellen Tab)./auth/token-info).Der Screenshot-Bereich ist das Herzstück der UI. Er zeigt den aktuellen Zustand des Remote-Desktops als Live-Bild.
Klicken Sie Capture in der Toolbar, um sofort einen neuen Screenshot aufzunehmen. Gleichzeitig werden die Cursor-Position und das aktive Fenster aktualisiert.
Aktivieren Sie die Checkbox Auto neben dem Capture-Button, um automatisch in regelmäßigen Abständen neue Screenshots zu laden. Das Intervall ist einstellbar:
| Intervall | Verwendung |
|---|---|
0.1s | Echtzeit-Monitoring (hohe Last) |
0.5s | Schnelle Aktualisierung |
1s | Standard für aktive Steuerung |
2s (Standard) | Gute Balance aus Aktualität und Last |
5s | Passives Monitoring |
Bei jedem Auto-Refresh werden auch die Host-Cursor-Position und der aktive Fenstertitel aktualisiert.
Der Zoom-Slider reicht von 25% bis 400%.
Die Skalierung erfolgt serverseitig über den Parameter
scale_factor — der Server liefert das Bild direkt in der
gewünschten Auflösung. Das spart Bandbreite bei niedrigem Zoom und ermöglicht
scharfe Vergrößerung bei hohem Zoom.
Der Zoom-Wert wird in der Toolbar als Prozent angezeigt (z.B. 100%).
Beim Ändern des Sliders wird der Auto-Refresh kurz pausiert, ein neuer Screenshot
mit dem angepassten Scale-Factor geladen, und der Auto-Refresh danach fortgesetzt.
Rechts neben dem Zoom wird die aktuelle Dateigröße des Screenshots angezeigt
(z.B. 245 KB oder 1.2 MB). Das hilft,
die Bandbreite im Blick zu behalten.
Falls der Remote-Desktop mehrere Bildschirme hat, können Sie über das Dropdown
Screen den gewünschten Monitor auswählen. Die verfügbaren Screens
werden beim App-Start vom Server abgefragt (/screens).
In der Toolbar wird die aktuelle Cursor-Position des Remote-Hosts angezeigt
(z.B. Host: 512, 384). Diese wird bei jedem Capture und
Auto-Refresh über den Endpoint /screenshot/cursor-position abgefragt.
cursor_ring=true ein roter Ring um den Cursor gezeichnet werden.
Rechts in der Toolbar wird der Titel des aktuell aktiven Fensters angezeigt. Bei langen Titeln wird der Text abgeschnitten (Ellipsis), der vollständige Titel ist per Tooltip sichtbar.
Das Mouse-Panel bietet volle Kontrolle über die Maus des Remote-Desktops.
Die Felder X und Y zeigen die aktuelle Zielposition. Sie können die Werte manuell eingeben oder durch Klick/Rechtsklick auf den Screenshot setzen. Der Button Move bewegt die Maus an die angegebene Position.
Wählen Sie im Dropdown die Maustaste (Left, Right,
Middle), dann:
Nach jedem Klick wird automatisch nach 1 Sekunde ein neuer Screenshot aufgenommen, um das Ergebnis zu sehen.
Geben Sie die Scroll-Richtung als Delta-Werte ein:
-3)Der Scroll-Befehl wird an der aktuellen Mausposition (X/Y) ausgeführt.
Geben Sie die Start-Koordinaten (Von: X, Y) und Ziel-Koordinaten (Nach: X, Y) ein und klicken Sie Drag. Die Maus wird mit gedrückter linker Taste von Start zu Ziel gezogen.
Ein Rechtsklick auf den Screenshot öffnet ein Kontextmenü mit Schnellaktionen. Die Koordinaten unter dem Cursor werden automatisch in die X/Y-Felder übernommen.
| Aktion | Beschreibung |
|---|---|
| Move to pos | Maus an die Position bewegen (ohne Klick) |
| Move & Click left | Maus bewegen + Linksklick |
| Move & Click right | Maus bewegen + Rechtsklick |
| Move & Double-Click | Maus bewegen + Doppelklick |
Wenn Sie die Maus über den Screenshot bewegen, erscheint ein Tooltip mit den aktuellen Koordinaten (in Original-Auflösung, unabhängig vom Zoom). Die Koordinaten werden live aktualisiert und entsprechen den tatsächlichen Pixelpositionen auf dem Remote-Desktop.
Das Keyboard-Panel sendet Tastatureingaben an den Remote-Desktop.
Geben Sie beliebigen Text in das Eingabefeld ein und klicken Sie
Type oder drücken Sie Enter.
Der Text wird zeichenweise über xdotool type eingegeben,
als würde jemand auf der Tastatur tippen.
Aktivieren Sie die gewünschten Modifier-Tasten per Checkbox:
Geben Sie dann die Taste im Feld ein (z.B. a, F5,
v) und klicken Sie Send oder
drücken Sie Enter.
Beispiele:
c — Kopierenv — EinfügenF4 — Fenster schließent — Tab wiederherstellen (Browser)Häufig benötigte Tasten sind als Buttons direkt verfügbar:
| Button | Taste | Verwendung |
|---|---|---|
| Esc | Escape | Dialoge abbrechen, Menüs schließen |
| Enter | Return | Bestätigen, Absenden |
| Tab | Tab | Zum nächsten Feld springen |
| BS | Backspace | Zeichen links löschen |
| Del | Delete | Zeichen rechts löschen |
| ↑ ↓ ← → | Pfeiltasten | Navigation |
Das Clipboard-Panel ermöglicht den Zugriff auf die Zwischenablage des Remote-Desktops.
Klicken Sie Read Clipboard, um den aktuellen Inhalt der Remote-Zwischenablage abzurufen. Der Text wird im darunterliegenden (schreibgeschützten) Textfeld angezeigt.
Geben Sie den gewünschten Text in das untere Textfeld ein und klicken Sie Write. Der Text wird in die Zwischenablage des Remote-Desktops geschrieben und kann dort mit Ctrl+V eingefügt werden.
Das Apps-Panel dient zum Starten, Prüfen und Schließen von Anwendungen auf dem Remote-Desktop.
Vorkonfigurierte Buttons zum schnellen Starten häufig benötigter Anwendungen:
google-chrome --no-sandboxlibreoffice --calcNach dem Start wird nach 2 Sekunden automatisch ein neuer Screenshot aufgenommen.
Für beliebige Programme: Geben Sie den Pfad oder Befehlsnamen im Feld
Pfad ein (z.B. firefox, /usr/bin/gedit).
Optionale Argumente können im Pfad-Feld (durch Leerzeichen getrennt) oder
im separaten Feld Args (durch Komma getrennt) angegeben werden.
Klicken Sie dann Open.
Geben Sie einen Prozessnamen ein (z.B. firefox) und klicken Sie
Check.
Das Ergebnis zeigt Running
oder Not running an.
Geben Sie die Window-ID (WID) ein und klicken Sie Close. Die WID können Sie aus der Fensterliste (Windows-Panel) entnehmen.
Das Windows-Panel zeigt alle offenen Fenster des Remote-Desktops und ermöglicht deren Verwaltung.
Klicken Sie Refresh, um die aktuelle Fensterliste vom Server abzurufen. Jeder Eintrag zeigt:
Das aktuell fokussierte Fenster wird visuell hervorgehoben:
Ein einfacher Klick auf einen Fenstereintrag bringt dieses Fenster in den Vordergrund und gibt ihm den Fokus. Nach 500ms werden die Fensterliste und der Screenshot aktualisiert.
Ein Rechtsklick auf einen Fenstereintrag öffnet ein Kontextmenü mit zwei Optionen:
Der Button Check Dialog prüft, ob ein modaler Dialog (z.B. ein Bestätigungsfenster, eine Fehlermeldung) auf dem Desktop geöffnet ist. Das Ergebnis wird als Hinweis unterhalb der Fensterliste angezeigt, einschließlich des Dialog-Titels falls vorhanden.
Am unteren Bildschirmrand befindet sich die History-Leiste, die alle ausgeführten Aktionen protokolliert.
Im zusammengeklappten Zustand zeigt die History-Leiste nur eine Zeile mit dem zuletzt ausgeführten Befehl (rot hervorgehoben). Ein Klick auf die Leiste klappt sie auf.
Die History kann über zwei Wege ein- und ausgeklappt werden:
Jeder Eintrag zeigt:
Ein Klick auf einen Eintrag klappt ihn auf und zeigt Details:
Fehlerhafte Aktionen werden mit roter Aktion dargestellt. Neueste Einträge stehen immer oben.
Die Höhe des History-Panels kann durch Ziehen am oberen Rand (Resize-Handle) angepasst werden (80px bis 500px).
Der Clear-Button in der History-Toolbar löscht alle Einträge und den Einzeiler.
Das Annotations-Panel ermöglicht visuelle Markierungen auf dem Screenshot, ohne den Remote-Desktop zu verändern. Alle Markierungen sind rein lokal im Browser.
Aktivieren Sie die Checkbox Crosshair. Bei jedem Klick auf den Screenshot wird ein Fadenkreuz (gestrichelte horizontale und vertikale Linie) an der angeklickten Position eingezeichnet. Das Crosshair folgt auch der Mausbewegung beim Zeichnen von Bounding Boxes.
Aktivieren Sie die Checkbox Bounding Box. Dann können Sie durch Klicken und Ziehen auf dem Screenshot Rechtecke zeichnen:
Es können beliebig viele Bounding Boxes gezeichnet werden. Sehr kleine Rechtecke (unter 3px Differenz) werden als normaler Klick behandelt.
Über den Farbwähler (Farbe) können Sie die Farbe aller Annotationen
ändern. Standard ist das Accent-Rot (#e94560). Die Farbe wird
sofort auf alle vorhandenen Markierungen angewendet.
Der Clear-Button entfernt alle Annotations (Crosshair und alle Bounding Boxes).
Der desktopkit-server bietet neben der Web UI auch eine vollständige REST-API. Drei Dokumentationsformate sind direkt über die Sidebar verfügbar:
| Link | Pfad | Beschreibung |
|---|---|---|
| 📖 API Docs | /doc |
Interaktive API-Dokumentation mit Try-It-Funktion. Jeder Endpoint kann direkt im Browser ausprobiert werden, inklusive Code-Generierung für verschiedene Sprachen. |
| 🌐 OpenAPI | /openapi.json |
Maschinenlesbare OpenAPI-Spezifikation (JSON). Geeignet für Code-Generatoren, Swagger UI, Postman-Import oder andere Tools. |
| 📝 Markdown | /doc/agent |
Kompakte Markdown-Referenz, optimiert für KI-Agenten. Enthält alle Endpoints, Parameter und Beispiele in einem einzigen, gut strukturierten Dokument. |
/doc/agent
ist speziell für den Kontext von LLMs konzipiert — kompakt, strukturiert
und mit allen nötigen Informationen für die API-Nutzung.
Übersicht der Maus- und Tastaturkürzel in der Web UI:
| Kürzel | Bereich | Aktion |
|---|---|---|
| Linksklick auf Screenshot | Canvas | Koordinaten in X/Y-Felder übernehmen; Crosshair setzen (falls aktiv) |
| Rechtsklick auf Screenshot | Canvas | Kontextmenü öffnen (Move, Click, Double-Click) |
| Klick + Ziehen auf Screenshot | Canvas | Bounding Box zeichnen (wenn Bounding-Box-Checkbox aktiv) |
| Enter im Text-Feld | Keyboard-Panel | Text senden (Type) |
| Enter im Hotkey-Feld | Keyboard-Panel | Hotkey senden |
| Enter im Passwort-Feld | Login | Login ausführen |
| Rechtsklick auf Fenstereintrag | Windows-Panel | Fenster-Kontextmenü (Aktivieren / Schließen) |
| Linksklick auf Fenstereintrag | Windows-Panel | Fenster aktivieren (in den Vordergrund) |
| Hover über Sidebar | Sidebar | Sidebar + Flyout Panel erweitern |