Das Vision-Language-Model GLM-OCR bei weber.cloud nutzen
Was genau ist GLM-OCR überhaupt?
Basierend auf dem leistungsstarken GLM-4V-Modell, revolutioniert GLM-OCR die Texterkennung. Anstatt nur einzelne Zeichen abzulesen, versteht die KI die logische Struktur und den Kontext ganzer Dokumente. Das Ergebnis ist eine hochpräzise, strukturierte Datenerfassung aus Quellen wie Rechnungen, Verträgen oder PDFs, die sich direkt für automatisierte Workflows nutzen lässt. Alle Arten von Dokumenten müssen dabei immer als Bild an das Modell übergeben werden.
Was sind typische Anwendungsfälle von GLM-OCR?
Dieses Modell kommt insbesondere dann zum Einsatz, wenn Dokumente verstanden und Informationen aus komplexen, mehrseitigen oder variierenden Dokumentstrukturen strukturiert gewonnen werden sollen. Beispiel hierfür wären:
- Rechnungen, Verträge oder Formulare mit wechselndem Layout
- Mehrseitige Dokumente, bei denen Informationen zusammenhängen
- Mehrsprachige Inhalte
- Hoher manueller Aufwand bei klassischen OCRs, da viele Spezialfälle
Wie kann ich mit GLM-OCR bei weber.cloud starten?
Bei weber.cloud können Sie das KI-Modell GLM-OCR kostenlos 1 Monat lang testen.
Registrieren Sie sich einfach hier: Für GLM-OCR registrieren
Sie können sich folgendermaßen registrieren:
- Per E-Mail
- Per Google
- Per LinkedIn
- Per PayPal
- Per Github
- oder mit Ihrem bereits existierenden weber.cloud Login
Wie komme ich an meine Zugangsdaten und den API-Schlüssel?
Nach der erfolgreichen Registrierung werden Sie auf unser Kundenportal umgeleitet und erhalten sofort und automatisiert Ihren Zugang.
Sie ereichen unser Kundenportal immer über den Login auf unsere weber.cloud Website oder direkt unter: weber.cloud Kundenportal
In den Details des Services "Managed AI Models" erhalten Sie Zugriff auf:
- API-Schlüssel
- API-URL
- API-Dokumentation
Wie nutze ich GLM-OCR über die OpenAI API-Schnittstelle?
Es ist wichtig zu wissen, dass GLM-OCR keine Fragen beantworten kann. Es liest Ihr Bilder ein und liefert Ihnen den textuellen Inhalt zurück.
API-Endpunkt:
v1/chat/completions
Request (das Bild als base64 String mitgeben):
{
"model": "zai-org/glm-ocr",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,BASE64STRING"
}
},
{
"type": "text",
"text": "Text Recognition:"
}
]
}
]
}
Response (Antwort des Modells):
{
"id": "chatcmpl-89706f59b97ae600",
"created": 1773157844,
"model": "zai-org/glm-ocr",
"object": "chat.completion",
"choices": [
{
"finish_reason": "stop",
"index": 0,
"message": {
"content": "Absender, Musterstraße 123, 12345 Berlin...",
"role": "assistant",
"provider_specific_fields": {
"refusal": null,
"reasoning": null
}
},
"provider_specific_fields": {
"stop_reason": 59253,
"token_ids": null
}
}
],
"usage": {
"completion_tokens": 452,
"prompt_tokens": 2592,
"total_tokens": 3044
}
}
Prompt Szenarios
1.Dokumenten Parsing
Dabei haben Sie genau 3 Einstellmöglichkeiten:
| Text Recognition: |
Erkennung von Fließtext |
| Table Recognition: |
Erkennung von Tabellenstrukturen |
| Formula Recognition: |
Erkennung mathematischer Formeln |
Beispiel Dokument

Ergebnis für Text Recognition:
Dies ist ein Testdokument\n\nSpalte1 Spalte2\nReihe1 a b\nReihe2 x y\n\nE=m*c²
Ergebnis für Table Recognition (als HTML oder Markdown):
<table class=\"table table-bordered\"><thead><tr><th></th><th>Spalte1</th><th>Spalte2</th></tr></thead><tbody><tr><td>Reihe1</td><td>a</td><td>b</td></tr><tr><td>Reihe2</td><td>x</td><td>y</td></tr></tbody></table>
Ergebnis für Formula Recognition (als LaTeX):
$$\nE = m ^ {*} c ^ {2}\n$$
2. Informationsextraktion
Dabei muss Ihr Prompt einem strikten JSON Format folgen um strukturierte Daten aus dem Dokument zu extrahieren. Ziel ist es, dass Sie definieren welche Informationen genau Sie als Ergebnis haben wollen.
Strukturaufbau
{
"id_number": "",
"last_name": "",
"first_name": "",
"date_of_birth": "",
"address": {
"street": "",
"city": "",
"state": "",
"zip_code": ""
},
"dates": {
"issue_date": "",
"expiration_date": ""
},
"sex": ""
}
Beispielhafter Aufbau des Requests
{
"model": "zai-org/glm-ocr",
"messages": [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {
"url": "data:image/png;base64,BASE64STRING"
}
},
{
"type": "text",
"text": "{\n \"id_number\": \"\",\n \"last_name\": \"\",\n \"first_name\": \"\",\n \"date_of_birth\": \"\",\n \"address\": {\n \"street\": \"\",\n \"city\": \"\",\n \"state\": \"\",\n \"zip_code\": \"\"\n },\n \"dates\": {\n \"issue_date\": \"\",\n \"expiration_date\": \"\"\n },\n \"sex\": \"\"\n}"
}
]
}
]
}
Da es sich hier um JSON in JSON handelt, muss ihr 2tes JSON entsprechend escaped werden.
Als Ergebnis erhalten Sie ein ausgefülltes JSON, das Ihrer zuvor definierten Struktur entspricht.
Wie benutze ich GLM-OCR in einem Chatbot wie z.B. Open WebUI?
- Starten Sie zunächst einen neuen Chat und wählen das Modell aus. Starten Sie pro Datei immer einen neuen Chat.
- Laden Sie Ihre Datei hoch, indem Sie diese einfach in das Fenster ziehen oder auf das Plus Symbol -> Dateien hochladen klicken.
- Wichtig: Ihre Datei muss dabei immer ein Bild sein. Sollten Sie eine PDF oder Word Datei haben, so müssen Sie diese zuerst umwandeln oder einen Screenshot davon machen. Ist dies für Sie nicht möglich, so laden Sie direkt die PDF hoch und wählen das Modell Qwen3.5 aus. Dieses ist in der Lage den reinen Text (ohne Bilder oder ähnliches) zu extrahieren und Ihnen z.B. eine Zusammenfassung oder den ganzen Text strukturiert auszugeben.
- Im Textfenster können Sie keine Fragen stellen, sondern nur die 3 Parsing-Optionen "Text Recognition", "Table Recognition" oder "Formula Recognition" (siehe oben) eingeben. Wenn Sie nur Text extrahieren wollen, so könenn Sie das Feld auch leer lassen und die Anfrage absenden.
- Als Antwort gibt das Modell Ihnen nun den erkannten Text zurück.

Wo kann ich noch mehr über GLM-OCR erfahren?
Weiter Infos zu GLM-OCR
|