Wissensdatenbank: KI (AI) Hosting & Betrieb

Wie lege ich mit den weber.cloud KI-Modellen los?

Gepostet von Christoph Joos, zuletzt bearbeitet von Christoph Joos an 05 Mai 2026 15:03

Das Vision-Language-Model GLM-OCR bei weber.cloud nutzen

Was genau ist GLM-OCR überhaupt?

Basierend auf dem leistungsstarken GLM-4V-Modell, revolutioniert GLM-OCR die Texterkennung. Anstatt nur einzelne Zeichen abzulesen, versteht die KI die logische Struktur und den Kontext ganzer Dokumente. Das Ergebnis ist eine hochpräzise, strukturierte Datenerfassung aus Quellen wie Rechnungen, Verträgen oder PDFs, die sich direkt für automatisierte Workflows nutzen lässt. Alle Arten von Dokumenten müssen dabei immer als Bild an das Modell übergeben werden.

Was sind typische Anwendungsfälle von GLM-OCR?

Dieses Modell kommt insbesondere dann zum Einsatz, wenn Dokumente verstanden und Informationen aus komplexen, mehrseitigen oder variierenden Dokumentstrukturen strukturiert gewonnen werden sollen. Beispiel hierfür wären:

  • Rechnungen, Verträge oder Formulare mit wechselndem Layout
  • Mehrseitige Dokumente, bei denen Informationen zusammenhängen
  • Mehrsprachige Inhalte
  • Hoher manueller Aufwand bei klassischen OCRs, da viele Spezialfälle

Wie kann ich mit GLM-OCR bei weber.cloud starten?

Bei weber.cloud können Sie das KI-Modell GLM-OCR kostenlos 1 Monat lang testen

Registrieren Sie sich einfach hier: Für GLM-OCR registrieren

Sie können sich folgendermaßen registrieren:

  • Per E-Mail
  • Per Google
  • Per LinkedIn
  • Per PayPal
  • Per Github
  • oder mit Ihrem bereits existierenden weber.cloud Login

Wie komme ich an meine Zugangsdaten und den API-Schlüssel?

Nach der erfolgreichen Registrierung werden Sie auf unser Kundenportal umgeleitet und erhalten sofort und automatisiert Ihren Zugang.

Sie ereichen unser Kundenportal immer über den Login auf unsere weber.cloud Website oder direkt unter: weber.cloud Kundenportal 

In den Details des Services "Managed AI Models" erhalten Sie Zugriff auf:

  • API-Schlüssel
  • API-URL
  • API-Dokumentation

Wie nutze ich GLM-OCR über die OpenAI API-Schnittstelle?

Es ist wichtig zu wissen, dass GLM-OCR keine Fragen beantworten kann. Es liest Ihr Bilder ein und liefert Ihnen den textuellen Inhalt zurück.

API-Endpunkt:

v1/chat/completions

Request (das Bild als base64 String mitgeben): 

{
  "model": "zai-org/glm-ocr",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/png;base64,BASE64STRING"
          }
        },
        {
          "type": "text",
          "text": "Text Recognition:"
        }
      ]
    }
  ]
}

Response (Antwort des Modells):

{
  "id": "chatcmpl-89706f59b97ae600",
  "created": 1773157844,
  "model": "zai-org/glm-ocr",
  "object": "chat.completion",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "Absender, Musterstraße 123, 12345 Berlin...",
        "role": "assistant",
        "provider_specific_fields": {
          "refusal": null,
          "reasoning": null
        }
      },
      "provider_specific_fields": {
        "stop_reason": 59253,
        "token_ids": null
      }
    }
  ],
  "usage": {
    "completion_tokens": 452,
    "prompt_tokens": 2592,
    "total_tokens": 3044
  }
}

Prompt Szenarios

1.Dokumenten Parsing

Dabei haben Sie genau 3 Einstellmöglichkeiten:

Text Recognition: Erkennung von Fließtext
Table Recognition: Erkennung von Tabellenstrukturen
Formula Recognition: Erkennung mathematischer Formeln
Beispiel Dokument

Ergebnis für Text Recognition:
Dies ist ein Testdokument\n\nSpalte1 Spalte2\nReihe1 a b\nReihe2 x y\n\nE=m*c²
Ergebnis für Table Recognition (als HTML oder Markdown):
<table class=\"table table-bordered\"><thead><tr><th></th><th>Spalte1</th><th>Spalte2</th></tr></thead><tbody><tr><td>Reihe1</td><td>a</td><td>b</td></tr><tr><td>Reihe2</td><td>x</td><td>y</td></tr></tbody></table>
Ergebnis für Formula Recognition (als LaTeX):
$$\nE = m ^ {*} c ^ {2}\n$$

2. Informationsextraktion

Dabei muss Ihr Prompt einem strikten JSON Format folgen um strukturierte Daten aus dem Dokument zu extrahieren. Ziel ist es, dass Sie definieren welche Informationen genau Sie als Ergebnis haben wollen.  

Strukturaufbau
{
    "id_number": "",
    "last_name": "",
    "first_name": "",
    "date_of_birth": "",
    "address": {
        "street": "",
        "city": "",
        "state": "",
        "zip_code": ""
    },
    "dates": {
        "issue_date": "",
        "expiration_date": ""
    },
    "sex": ""
}
Beispielhafter Aufbau des Requests 
{
  "model": "zai-org/glm-ocr",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/png;base64,BASE64STRING"
          }
        },
        {
          "type": "text",
          "text": "{\n    \"id_number\": \"\",\n    \"last_name\": \"\",\n    \"first_name\": \"\",\n    \"date_of_birth\": \"\",\n    \"address\": {\n        \"street\": \"\",\n        \"city\": \"\",\n        \"state\": \"\",\n        \"zip_code\": \"\"\n    },\n    \"dates\": {\n        \"issue_date\": \"\",\n        \"expiration_date\": \"\"\n    },\n    \"sex\": \"\"\n}"
        }
      ]
    }
  ]
}

Da es sich hier um JSON in JSON handelt, muss ihr 2tes JSON entsprechend escaped werden.

Als Ergebnis erhalten Sie ein ausgefülltes JSON, das Ihrer zuvor definierten Struktur entspricht.

Wie benutze ich GLM-OCR in einem Chatbot wie z.B. Open WebUI?

  1. Starten Sie zunächst einen neuen Chat und wählen das Modell aus. Starten Sie pro Datei immer einen neuen Chat.
  2. Laden Sie Ihre Datei hoch, indem Sie diese einfach in das Fenster ziehen oder auf das Plus Symbol -> Dateien hochladen klicken.
  3. Wichtig: Ihre Datei muss dabei immer ein Bild sein. Sollten Sie eine PDF oder Word Datei haben, so müssen Sie diese zuerst umwandeln oder einen Screenshot davon machen. Ist dies für Sie nicht möglich, so laden Sie direkt die PDF hoch und wählen das Modell Qwen3.5 aus. Dieses ist in der Lage den reinen Text (ohne Bilder oder ähnliches) zu extrahieren und Ihnen z.B. eine Zusammenfassung oder den ganzen Text strukturiert auszugeben. 
  4. Im Textfenster können Sie keine Fragen stellen, sondern nur die 3 Parsing-Optionen "Text Recognition",  "Table Recognition" oder "Formula Recognition" (siehe oben) eingeben. Wenn Sie nur Text extrahieren wollen, so könenn Sie das Feld auch leer lassen und die Anfrage absenden.
  5. Als Antwort gibt das Modell Ihnen nun den erkannten Text zurück.

Wo kann ich noch mehr über GLM-OCR erfahren?

Weiter Infos zu GLM-OCR

(1 Stimme(n))
Hilfreich
Nicht hilfreich

Kommentare (0)
Neuen Kommentar posten
 
 
Vollständiger Name:
E-Mail:
Kommentare:
CAPTCHA Überprüfung 
 
Bitte bearbeiten Sie das untere Captcha.

© Copyright weber.digital GmbH · Anschrift & Impressum · AGB · Datenschutzerklärung