Bilder als besserer Input für große Sprachmodelle? Deep Seek OCR
Der Chinesische KI Entwickler DeepSeek experimentiert gerade mit einem OCR-Modell (Optical character recognition) und beweist, dass komprimierte Bilder für Berechnungen auf GPUs effizienter sein können als viele klassische Text-Token.
Viele Unternehmen haben ihre Unterlagen längst digitalisiert. Doch häufig liegen sie nur als gescannte PDFs vor. Diese in echten Text umzuwandeln,