Bilder als besserer Input für große Sprachmodelle? Deep Seek OCR
Der Chinesische KI Entwickler DeepSeek experimentiert gerade mit einem OCR-Modell (Optical character recognition) und beweist, dass komprimierte Bilder für Berechnungen auf GPUs effizienter sein können als viele klassische Text-Token.
Viele Unternehmen haben ihre Unterlagen längst digitalisiert. Doch häufig liegen sie nur als gescannte PDFs vor. Diese in echten Text umzuwandeln, ist aufwendiger, als man denkt. Besonders Tabellen, Bilder oder komplexe Layouts bringen klassische OCR-Programme schnell an ihre Grenzen. Inzwischen versuchen viele neue Lösungen, unterstützt durch große Sprachmodelle, genau dieses Problem zu lösen.
Mit DeepSeek-OCR betritt jetzt auch der chinesische KI-Entwickler DeepSeek die Bühne. Nach seinem bekannten Reasoning-Modell R1 zeigt das Unternehmen nun ein neues Experiment: ein OCR-System, das nicht einfach nur Texte erkennt, sondern die Idee verfolgt, Dokumente auf eine ganz neue Weise zu komprimieren und zu verstehen.
Der ungewöhnliche Ansatz von DeepSeek:
Große Sprachmodelle haben ein Problem: Sie stoßen schnell an ihre Grenzen, wenn sie sehr lange Texte oder viele Dokumente auf einmal verarbeiten sollen. DeepSeek geht hier einen anderen Weg. Statt alles als Text einzuspeisen, werden Inhalte als Bilder dargestellt. Diese enthalten mehr Informationen pro Token und lassen sich dadurch effizienter verarbeiten. DeepSeek-OCR dient als Testlauf, um herauszufinden, wie gut diese optische Kompression funktioniert. Das Ziel: weniger Rechenaufwand bei gleichbleibend hoher Genauigkeit.
Wie das Modell arbeitet:
Kernstück des Systems ist der sogenannte DeepEncoder, der Informationen aus Bildern extrahiert und komprimiert. Er kombiniert verschiedene Aufmerksamkeitsmechanismen, um sowohl Details als auch den Gesamtkontext zu erfassen. Zusammen mit dem Sprachmodell DeepSeek-3B-MoE kann das System nicht nur Texte, sondern auch Diagramme, mathematische Formeln und chemische Strukturen erkennen und umwandeln.
Formeln werden in LaTeX, chemische Moleküle in SMILES-Notation ausgegeben. Damit geht DeepSeek-OCR deutlich weiter als viele klassische OCR-Tools.
Erste Tests und Ergebnisse:
Im Test mit einer Magazinseite erkannte DeepSeek-OCR den gesamten Text fast fehlerfrei, besonders im sogenannten Gundam-Modus. Das Modell rekonstruierte sogar den Textfluss korrekt, was viele andere Systeme nicht schaffen. Auf einer handelsüblichen Grafikkarte dauerte die Verarbeitung rund 40 Sekunden.
Bei stärkerer Kompression nahm die Genauigkeit allerdings ab. Kleinere Varianten arbeiteten zwar schneller, lieferten aber ungenauere oder verfälschte Ergebnisse. Für präzise Resultate empfiehlt sich daher die leistungsstärkere Konfiguration.
Auch Diagramme kann DeepSeek-OCR analysieren und in tabellarische Daten umwandeln. Zwar sind manche Werte leicht abweichend, doch die Struktur bleibt erhalten. Das ist ein Hinweis auf das Potenzial des neuen Ansatzes.
Fazit:
DeepSeek-OCR ist kein gewöhnliches OCR-Tool, sondern ein spannendes Experiment, das zeigt, wie Sprachmodelle künftig Dokumente verarbeiten könnten. Das System ist schnell, vielseitig und beeindruckend präzise, besonders bei moderater Kompression.
Im Vergleich zu etablierten Lösungen wie MinerU, Nanonets oder PaddleOCR-VL liefert DeepSeek-OCR bei Texten ähnlich gute Ergebnisse, kann aber zusätzlich Formeln und Grafiken verstehen. Der Ansatz steckt noch in den Anfängen, wirkt aber vielversprechend.
Wer neugierig ist, findet den Code und weitere Informationen auf GitHub, Hugging Face und im arXiv-Preprint.