Wissensdatenbank: KI (AI) Hosting & Betrieb

Nutzung des KI-Modells GLM-OCR

Gepostet von Christoph Joos, zuletzt bearbeitet von Christoph Joos an 23 März 2026 10:54

Das Vision-Language-Model GLM-OCR bei weber.cloud nutzen

Was genau ist GLM-OCR überhaupt?

Basierend auf dem leistungsstarken GLM-4V-Modell, revolutioniert GLM-OCR die Texterkennung. Anstatt nur einzelne Zeichen abzulesen, versteht die KI die logische Struktur und den Kontext ganzer Dokumente. Das Ergebnis ist eine hochpräzise, strukturierte Datenerfassung aus Quellen wie Rechnungen, Verträgen oder PDFs, die sich direkt für automatisierte Workflows nutzen lässt.

Was sind typische Anwendungsfälle von GLM-OCR?

Dieses Modell kommt insbesondere dann zum Einsatz, wenn Dokumente verstanden und Informationen aus komplexen, mehrseitigen oder variierenden Dokumentstrukturen strukturiert gewonnen werden sollen. Beispiel hierfür wären:

  • Rechnungen, Verträge oder Formulare mit wechselndem Layout
  • Mehrseitige Dokumente, bei denen Informationen zusammenhängen
  • Mehrsprachige Inhalte
  • Hoher manueller Aufwand bei klassischen OCRs, da viele Spezialfälle

Wie kann ich mit GLM-OCR bei weber.cloud starten?

Bei weber.cloud können Sie das KI-Modell GLM-OCR kostenlos 1 Monat lang testen

Registrieren Sie sich einfach hier: Für GLM-OCR registrieren

Sie können sich folgendermaßen registrieren:

  • Per E-Mail
  • Per Google
  • Per LinkedIn
  • Per PayPal
  • Per Github
  • oder mit Ihrem bereits existierenden weber.cloud Login

Wie komme ich an meine Zugangsdaten und den API-Schlüssel?

Nach der erfolgreichen Registrierung werden Sie auf unser Kundenportal umgeleitet und erhalten sofort und automatisiert Ihren Zugang.

Sie ereichen unser Kundenportal immer über den Login auf unsere weber.cloud Website oder direkt unter: weber.cloud Kundenportal 

In den Details des Services "Managed AI Models" erhalten Sie Zugriff auf:

  • API-Schlüssel
  • API-URL
  • API-Dokumentation

Wie nutze ich GLM-OCR über die OpenAI API-Schnittstelle?

Es ist wichtig zu wissen, dass GLM-OCR keine Fragen beantworten kann. Es liest Ihr Dokument ein und liefert Ihnen den textuellen Inhalt zurück.

API-Endpunkt:

v1/chat/completions

Request (das Bild als base64 String mitgeben): 

{
  "model": "zai-org/glm-ocr",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/png;base64,BASE64STRING"
          }
        },
        {
          "type": "text",
          "text": "Text Recognition:"
        }
      ]
    }
  ]
}

Response (Antwort des Modells):

{
  "id": "chatcmpl-89706f59b97ae600",
  "created": 1773157844,
  "model": "zai-org/glm-ocr",
  "object": "chat.completion",
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "Absender, Musterstraße 123, 12345 Berlin...",
        "role": "assistant",
        "provider_specific_fields": {
          "refusal": null,
          "reasoning": null
        }
      },
      "provider_specific_fields": {
        "stop_reason": 59253,
        "token_ids": null
      }
    }
  ],
  "usage": {
    "completion_tokens": 452,
    "prompt_tokens": 2592,
    "total_tokens": 3044
  }
}

Prompt Szenarios

1.Dokumenten Parsing

Dabei haben Sie genau 3 Einstellmöglichkeiten:

Text Recognition: Erkennung von Fließtext
Table Recognition: Erkennung von Tabellenstrukturen
Formula Recognition: Erkennung mathematischer Formeln
Beispiel Dokument

Ergebnis für Text Recognition:
Dies ist ein Testdokument\n\nSpalte1 Spalte2\nReihe1 a b\nReihe2 x y\n\nE=m*c²
Ergebnis für Table Recognition (als HTML oder Markdown):
<table class=\"table table-bordered\"><thead><tr><th></th><th>Spalte1</th><th>Spalte2</th></tr></thead><tbody><tr><td>Reihe1</td><td>a</td><td>b</td></tr><tr><td>Reihe2</td><td>x</td><td>y</td></tr></tbody></table>
Ergebnis für Formula Recognition (als LaTeX):
$$\nE = m ^ {*} c ^ {2}\n$$

2. Informationsextraktion

Dabei muss Ihr Prompt einem strikten JSON Format folgen um strukturierte Daten aus dem Dokument zu extrahieren. Ziel ist es, dass Sie definieren welche Informationen genau Sie als Ergebnis haben wollen.  

Strukturaufbau
{
    "id_number": "",
    "last_name": "",
    "first_name": "",
    "date_of_birth": "",
    "address": {
        "street": "",
        "city": "",
        "state": "",
        "zip_code": ""
    },
    "dates": {
        "issue_date": "",
        "expiration_date": ""
    },
    "sex": ""
}
Beispielhafter Aufbau des Requests 
{
  "model": "zai-org/glm-ocr",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "image_url",
          "image_url": {
            "url": "data:image/png;base64,BASE64STRING"
          }
        },
        {
          "type": "text",
          "text": "{\n    \"id_number\": \"\",\n    \"last_name\": \"\",\n    \"first_name\": \"\",\n    \"date_of_birth\": \"\",\n    \"address\": {\n        \"street\": \"\",\n        \"city\": \"\",\n        \"state\": \"\",\n        \"zip_code\": \"\"\n    },\n    \"dates\": {\n        \"issue_date\": \"\",\n        \"expiration_date\": \"\"\n    },\n    \"sex\": \"\"\n}"
        }
      ]
    }
  ]
}

Da es sich hier um JSON in JSON handelt, muss ihr 2tes JSON entsprechend escaped werden.

Als Ergebnis erhalten Sie ein ausgefülltes JSON, das Ihrer zuvor definierten Struktur entspricht.

Wo kann ich noch mehr über GLM-OCR erfahren?

Weiter Infos zu GLM-OCR

(3 Stimme(n))
Hilfreich
Nicht hilfreich

Kommentare (0)
Neuen Kommentar posten
 
 
Vollständiger Name:
E-Mail:
Kommentare:
CAPTCHA Überprüfung 
 
Bitte bearbeiten Sie das untere Captcha.

© Copyright weber.digital GmbH · Anschrift & Impressum · AGB · Datenschutzerklärung