Unstrukturierte Daten: Die 80 %, die Ihre Systeme nicht lesen können

12. Juni 202630 Min. Lesezeit

Mitgründer von Superkind

Ein großer chaotischer Haufen ungleicher dunkler Metallfragmente in vielen Formen, eines mit orangefarbenem Band markiert, als Sinnbild für die unstrukturierten Daten, die den Großteil des Unternehmenswissens enthalten

Fragen Sie einen Mittelständler, wo das Unternehmen sein Wissen aufbewahrt, und er zeigt auf das ERP. Dieses System hält die Aufträge, die Bestände, die Rechnungen, die sauberen Zahlen in ordentlichen Zeilen. Es ist zugleich die kleine sichtbare Spitze des Eisbergs. Das Jahrzehnt an Kunden-E-Mails, die Verträge mit handverhandelten Klauseln, die Serviceberichte, die technischen Zeichnungen, die Besprechungsnotizen, die Fotos vom letzten Audit, all das sind auch Daten, und sie stellen das ERP in den Schatten.

Branchenschätzungen setzen diese Art von Daten, unstrukturierte Daten, bei rund 80 bis 90 Prozent von allem an, was ein Unternehmen hält. Für die meisten Betriebe ist die überwältigende Mehrheit dessen, was sie wissen, unsichtbar für die Systeme, auf die sie sich verlassen, weil diese nie dafür gebaut wurden, einen Satz zu lesen, sondern nur, ein Feld zu zählen. Das ist keine kleine Lücke. Es ist der Großteil Ihres betrieblichen Wissens, der im Dunkeln liegt.

Dieser Artikel handelt von dieser unsichtbaren Mehrheit: was unstrukturierte Daten wirklich sind, warum sie jahrzehntelang totes Kapital waren und warum 2026 der Moment ist, der das ändert, weil KI sie endlich lesen kann. Wir zeigen, wo sie sich in Ihrem Betrieb verstecken, wie Sie sie in etwas Abfragbares verwandeln, die Governance- und DSGVO-Fallen, die nur für sie gelten, und einen 90-Tage-Weg zum Start. Die Daten waren die ganze Zeit da. Neu ist, dass Sie sie endlich nutzen können.

Kurzfassung

Das meiste, was Sie wissen, ist unstrukturiert - E-Mails, PDFs, Verträge, Bilder und Notizen machen geschätzt 80 bis 90 Prozent der Unternehmensdaten aus, weit mehr als die strukturierten Zeilen im ERP.

Es war totes Kapital - im Schnitt sind 55 Prozent der Daten “dunkel”, nie genutzt, und nur etwa 32 Prozent der verfügbaren Daten werden je eingesetzt.

Klassische Systeme können es nicht lesen - Datenbanken zählen Felder; sie verstehen nicht die Bedeutung in einem Vertrag oder einer E-Mail, also blieben die Daten unsichtbar.

KI ändert das jetzt - Sprachmodelle lesen Dokumente, Bilder und Audio wie ein Mensch, was ein Company Brain über Ihren unstrukturierten Daten erst möglich macht.

Es ist auch ein verstecktes Risiko - sensible und personenbezogene Daten lauern in Dateien, die Sie nicht durchsuchen können, was mit DSGVO-Löschpflichten und den deutschen GoBD-Aufbewahrungsregeln kollidiert.

Mit einer Quelle starten - lesen Sie die Daten dort, wo sie liegen, beweisen Sie den Wert an einem häufigen Dokumenttyp und erweitern Sie dann, statt zuerst eine riesige Migration zu versuchen.

Die unsichtbare Mehrheit dessen, was Ihr Unternehmen weiß

Die Zahlen, die Ihr Geschäft steuern, sind der Teil, den Sie sehen und messen können. Das Wissen, das Ihr Geschäft steuert, ist überwiegend der Teil, den Sie nicht sehen. Dieser Bruch ist der Kern des Problems mit unstrukturierten Daten, und er ist größer, als die meisten Eigentümer ahnen.

Das Kernverhältnis - IDC- und Gartner-Schätzungen setzen unstrukturierte Daten bei rund 80 bis 90 Prozent aller Unternehmensdaten an, ein IDC-White-Paper sagt schlicht, 90 Prozent der Daten seien unstrukturiert^1,2.
Die Ausgaben sind verkehrt herum - dieselbe Forschung fand, dass rund 40 Prozent der IT-Ausgaben in das Managen unstrukturierter Daten fließen, während 60 Prozent die kleine strukturierte Minderheit stützen, ein Missverhältnis zwischen Datenlage und Geldfluss¹.
Es wächst schneller - IDC berichtet, der Mix verschiebe sich deutlicher zu unstrukturierten Daten, beschleunigt durch generative KI, die immer mehr Dokumente, Bilder und Gespräche erzeugt⁷.
Die Summe ist gewaltig - die globale Datensphäre sollte bis 2025 auf 175 Zettabyte wachsen, und der unstrukturierte Anteil ist der Großteil davon⁶.
Ihr Betrieb ist keine Ausnahme - das Verhältnis gilt für einen 150-Personen-Mittelständler ebenso wie für einen Konzern, weil das meiste, was ein Betrieb festhält, Dokumente und Gespräche sind.

Der Kerngedanke

Wenn 80 bis 90 Prozent dessen, was Ihr Unternehmen weiß, unstrukturiert ist, dann arbeitet jedes System, das nur für strukturierte Daten gebaut wurde, Ihr ERP, Ihre BI-Dashboards, Ihre Reports, mit der kleinen Minderheit Ihres Wissens. Entscheidungen auf dieser Basis werden mit einem offenen Auge getroffen. Die unstrukturierte Mehrheit ist nicht das Rauschen um die Daten herum, sie ist der Großteil der Daten.

Der Wert dieser Mehrheit wurde längst erkannt. Das Problem war nie, dass es ihr an Wert fehlte. Das Problem war, dass niemand sie zu etwas Nutzbarem veredeln konnte, genau die Warnung hinter dem meistzitierten Satz der Datenwelt.

“Data is the new oil. It’s valuable, but if unrefined it cannot really be used... so must data be broken down, analyzed, for it to have value.”

- Clive Humby, Mathematiker und Architekt der Tesco Clubcard¹⁷

Was unstrukturierte Daten wirklich sind

Der Begriff klingt technisch, die Idee ist einfach. Strukturierte Daten passen in Zeilen und Spalten mit festem Format. Unstrukturierte Daten sind alles, was das nicht tut, also das meiste, was Menschen bei der Arbeit tatsächlich erzeugen. Eine klare Definition macht den Rest des Artikels greifbar.

Die drei Kategorien

Strukturierte Daten - passen in ein vordefiniertes Schema aus Zeilen und Spalten, etwa die Datensätze in ERP, CRM oder Buchhaltung. Leicht von Maschinen zu sortieren und zu zählen. Die Minderheit.
Semi-strukturierte Daten - haben Tags oder Marker, aber keine starre Tabelle, etwa JSON, XML, CSV oder eine E-Rechnung. Teils maschinenlesbar, üblich im System-zu-System-Austausch.
Unstrukturierte Daten - haben gar kein vordefiniertes Format: Freitext, Dokumente, Bilder, Audio, Video. Reich an Bedeutung, aber für eine Datenbank undurchsichtig¹².

Wie unstrukturierte Daten in einem echten Betrieb aussehen

Typ	Beispiele in Ihrem Unternehmen	Was es enthält
Dokumente	Verträge, Angebote, Specs, PDFs, Präsentationen	Konditionen, Preise, Zusagen, Know-how
E-Mail und Chat	Postfächer, Teams, Kunden-Threads	Entscheidungen, Absprachen, Historie
Bilder	Scans, Fotos, Zeichnungen, Prüfaufnahmen	Mängel, Layouts, Nachweise
Audio und Video	Anrufe, Voicemails, aufgezeichnete Meetings	Zusagen, Kontext, Absicht
Notizen und Berichte	Serviceberichte, Feldnotizen, Protokolle	Implizites Wissen aus der Praxis

Das verräterische Zeichen

Ein einfacher Test, ob Daten unstrukturiert sind: Könnten Sie sie in einer Tabellenspalte sortieren, und wäre das sinnvoll? Eine Liste von Rechnungssummen, ja. Der Text einer Lieferanten-E-Mail, die erklärt, warum eine Lieferung rutschte, nein. In dem Moment, in dem der Wert in der Bedeutung von Wörtern oder im Inhalt eines Bildes steckt statt in einem festen Feld, sehen Sie unstrukturierte Daten, und das Wissen, das Ihre klassischen Systeme nicht erreichen.

Warum es jahrzehntelang totes Kapital war

Unternehmen wussten immer, dass diese Daten zählen. Sie hielten sie, speicherten sie, sicherten sie. Sie konnten sie nur nicht nutzen, weil die Werkzeuge, sie im großen Maßstab zu lesen, nicht existierten. Das Ergebnis ist ein riesiges, bezahltes Archiv, das fast nichts zurückgibt, ein Muster, das die Branche benannt hat.

Das Dark-Data-Problem

Das meiste wird nie genutzt - Gartner prägte 2012 “Dark Data” für gesammelte, aber nie angewandte Informationen, und Splunk fand, dass im Schnitt 55 Prozent der Daten einer Organisation dunkel sind^3,4,5.
Die Verschwendung ist noch größer - eine Veritas-Studie setzte Dark Data plus redundante, veraltete oder triviale Daten bei 85 Prozent des Gespeicherten an, nur 15 Prozent waren geschäftskritisch⁹.
Wenig wird eingesetzt - eine Studie von Seagate und IDC fand, dass nur etwa 32 Prozent der verfügbaren Daten je genutzt werden, 68 Prozent bleiben ungenutzt⁸.
Es kostet trotzdem Geld - Dark Data sind nicht gratis; Sie zahlen für Speicherung, Sicherung und Backup von Dateien, die nichts zurückgeben, bis etwas sie lesen kann.

Warum die alten Werkzeuge es nicht lesen konnten

Datenbanken brauchen ein Schema - sie zählen und sortieren feste Felder und können die Bedeutung eines Absatzes oder den Inhalt eines Fotos nicht deuten.
Stichwortsuche liefert Links, keine Antworten - sie findet Dateien mit einem Wort, kann aber nicht zusammenfassen und übersieht alles, was anders formuliert ist als die Anfrage.
Manuelles Lesen skaliert nicht - der einzige verlässliche Weg, ein Dokument zu nutzen, war, dass ein Mensch es öffnet, was bei zehn Dateien geht und bei zehn Millionen unmöglich ist.
Also wurde es dunkel - nicht weil es wertlos war, sondern weil es im großen Maßstab zu lesen bis vor Kurzem technisch unmöglich war.

Studie	Befund	Folge
Splunk State of Dark Data	55 % der Daten sind dunkel⁴	Mehr als die Hälfte wird nie genutzt
Veritas Global Databerg	85 % Dark oder ROT⁹	Nur 15 % sind geschäftskritisch
Seagate / IDC Rethink Data	32 % werden genutzt⁸	Zwei Drittel des Werts bleiben liegen
IDC / Box	90 % der Daten unstrukturiert¹	Die dunkle Mehrheit hat kein Schema

Warum KI das 2026 endlich ändert

Der Grund, warum unstrukturierte Daten plötzlich ein aktuelles Thema sind, ist nicht, dass sich die Daten geändert hätten. Es ist, dass Maschinen lesen lernten. Große Sprachmodelle tun mit einem Dokument, was ein Mensch tut, sie verstehen es, was die eine Barriere beseitigt, die diese Daten jahrzehntelang dunkel hielt.

Was die Technik jetzt leistet

Modelle lesen wie Menschen - ein LLM extrahiert Bedeutung aus Text, Bildern und Audio, kann also eine Frage zu einem Vertrag beantworten, statt nur die Datei zu finden.
Retrieval findet nach Bedeutung - Vektorsuche und Retrieval-Augmented Generation finden die richtige Passage nach Bedeutung, nicht nach exakten Wörtern, und verankern eine Antwort darin.
Es skaliert - derselbe Ansatz liest zehn Millionen Dokumente so bereitwillig wie zehn, genau das, was manuelles Lesen nie konnte.
Es wird zum Company Brain - zusammengenommen ist das eine abfragbare Schicht über Ihren unstrukturierten Daten, das Fundament, das wir in was kein Company Brain wirklich kostet beschreiben.

Warum das der Engpass für KI ist, kein Nebenthema

Daten, nicht Modelle, sind die Grenze - McKinsey fand, dass acht von zehn Unternehmen Datenlimits als Hürde beim Skalieren agentischer KI nennen, und das meiste davon ist unstrukturiert¹⁰.
Adoption ist real, aber flach - 88 Prozent der Organisationen nutzen KI in mindestens einer Funktion, doch nur etwa ein Drittel hat sie skaliert, oft weil die Daten nicht bereit sind¹¹.
Unstrukturierte Daten sind der Treibstoff - ein KI-Agent ohne Zugriff auf Ihre Dokumente und E-Mails ist generisch; der Wert kommt aus dem unstrukturierten Wissen, das nur Sie haben.
Die Reihenfolge zählt - Unternehmen, die ihre unstrukturierten Daten zuerst lesbar machen, bekommen zinseszinsartige Erträge; wer das überspringt, baut für jedes Projekt den Kontext neu.

Die Verschiebung in einem Satz

Dreißig Jahre lautete die Frage “wie speichern wir all diese Daten”. Die Frage für 2026 lautet “wie lesen wir sie endlich”. Das Speicherproblem wurde längst gelöst. Das Leseproblem gerade eben, und deshalb sind die 80 Prozent Ihres Wissens, die dunkel waren, plötzlich ein nutzbares Gut.

Neugierig, was in Ihren unstrukturierten Daten steckt?

Buchen Sie ein 30-Minuten-Gespräch und wir kartieren, wo Ihr Wissen sitzt und welche Quelle zuerst lesbar werden sollte.

Demo buchen →

Ein dunkler Metalltrichter, der oben ein Gewirr ungleicher Metallfragmente aufnimmt und unten einen ordentlichen, geordneten Stapel ausgibt, als Sinnbild für unstrukturierte Daten, die in nutzbare Struktur verwandelt werden

Wo Ihre unstrukturierten Daten sich wirklich verstecken

Unstrukturierte Daten liegen nicht an einem Ort; sie sind über jede Abteilung verstreut, meist in den Systemen, in denen gearbeitet wird, nicht dort, wo Daten verwaltet werden. Die Verstecke zu benennen ist der erste Schritt, das in ihnen zu nutzen.

Nach Abteilung

Vertrieb und Service - Kunden-E-Mails, Gesprächsnotizen, Angebote und die Historie, warum ein Auftrag gewonnen oder ein Preis gegeben wurde.
Betrieb und Produktion - Serviceberichte, Wartungslogs, Prüffotos und das Störungswissen in den Notizen eines Einrichters.
Finanzen und Einkauf - Eingangsrechnungen, Verträge, Lieferantenkorrespondenz und die in Rahmenverträgen vergrabenen Konditionen.
Recht und Compliance - Verträge, NDAs, Richtlinien und Audit-Dokumentation, fast alles Freitext in PDFs.
HR und Geschäftsführung - Bewerbungen, Beurteilungen, Protokolle und Entscheidungen, die nur in einem Postfach festgehalten sind.
Engineering - Zeichnungen, Spezifikationen, Handbücher und die Konstruktionsbegründung, die eher in Notizen und E-Mail lebt als in der CAD-Datei.

Nach System

System	Unstrukturierter Inhalt	Typischer Zustand
E-Mail-Server	Jahre an Threads und Anhängen	Bestenfalls per Stichwort durchsuchbar
Dateiablagen und SharePoint	Dokumente, Scans, Präsentationen	Ordnerwildwuchs, vieles veraltet
ERP-Anhänge	PDFs und Notizen an Datensätzen	Unsichtbar fürs ERP-Reporting
Persönliche Laufwerke	Lokale Kopien und Arbeitsdateien	Außerhalb jeder Governance
Chat und Aufzeichnungen	Teams-Nachrichten, aufgezeichnete Anrufe	Selten indexiert oder wiederverwendet

Das Muster ist konstant: Das wertvollste unstrukturierte Wissen liegt in den meistgenutzten Systemen, E-Mail und Dateiablagen, wo es am wenigsten gesteuert ist. Unser Leitfaden, einen Agenten auf zehn Jahre SharePoint-Dokumente zu setzen, geht tief auf eine der reichsten dieser Quellen ein.

Unstrukturierte Daten in etwas Nutzbares verwandeln

Unstrukturierte Daten nutzbar zu machen ist eine Pipeline, kein einzelnes Produkt. Jede Stufe verwandelt rohe Dateien in Antworten, und die Stufen zu verstehen, zeigt, wo die Arbeit wirklich liegt. Das Trichterbild weiter oben ist die buchstäbliche Form davon: Gewirr hinein, Struktur heraus.

Die Pipeline, Stufe für Stufe

Anbinden - die Daten dort erreichen, wo sie liegen, in E-Mail, Dateiablagen, ERP und DMS, über Konnektoren, statt zuerst alles zu migrieren.
Extrahieren - jede Datei lesen, ob PDF, Scan oder Bild, und Text und Bedeutung herausziehen, hier ersetzt intelligente Dokumentenverarbeitung die brüchige OCR.
Strukturieren und einbetten - die Bedeutung in eine durchsuchbare Form bringen, samt Vektor-Embeddings, die erfassen, worum es in einer Passage geht.
Abrufen - bei einer Frage die richtige Passage nach Bedeutung finden, über Tausende Dokumente hinweg, in Sekunden.
Antworten und verankern - eine Antwort erzeugen, die an das Quelldokument zurückgebunden ist, sodass Mitarbeitende ihr vertrauen und sie prüfen können, statt sie blind zu glauben.

Wo die eigentliche Arbeit liegt

Man nimmt an, der schwere Teil sei das KI-Modell, das die finale Antwort schreibt. Ist er nicht. Der schwere Teil ist die unglamouröse Mitte: chaotische Quellen anbinden, schlechte Scans lesen und das Retrieval dazu bringen, die richtige Passage zu liefern. Stimmt das, erzeugt fast jedes fähige Modell gute Antworten. Stimmt es nicht, antwortet das beste Modell der Welt aus dem falschen Dokument. Der Wert steckt in der Pipeline, nicht in der Schlagzeile.

Die Dokumenttypen mit dem schnellsten Ertrag

Eingangsrechnungen - häufig, repetitiv und messbar, das klassische erste Ziel, behandelt in unserem Beitrag, OCR durch intelligente Dokumentenverarbeitung zu ersetzen.
Verträge - dicht an Konditionen, die ein Mensch heraussuchen muss, wo eine Abfrage, die die richtige Klausel liefert, echte Zeit spart.
Service- und Feldberichte - voller Störungswissen, das sonst im Kopf eines Technikers bleibt.
Kunden-E-Mails - die Historie jeder Beziehung, meist nur für die Person durchsuchbar, die sie geschrieben hat.
Technische Zeichnungen und Specs - wo Konstruktionsbegründung und gebaute Realität oft von der CAD-Datei abweichen.

Die Governance- und Risikoseite, die niemand erwähnt

Unstrukturierte Daten sind nicht nur ungenutzter Wert; sie sind auch unkontrolliertes Risiko. Weil Sie nicht sehen, was in den Dateien steht, können Sie sie nicht leicht schützen, steuern oder löschen, und in Deutschland trifft das auf zwei rechtliche Pflichten, die in entgegengesetzte Richtungen ziehen.

Die versteckten Risiken

Sensible Daten verstecken sich offen - personenbezogene Daten, Gehälter und Gesundheitsdaten sitzen in E-Mails und Dokumenten, wo niemand sie indexiert hat, sodass ein Leck mehr offenlegt als erwartet.
Sie zahlen für die Speicherung von Müll - mit bis zu 85 Prozent Dark oder redundanten Daten schützt ein Großteil Ihrer Speicher- und Backup-Kosten Dateien, die nie genutzt werden⁹.
Löschung wird fast unmöglich - das DSGVO-Recht auf Vergessenwerden verlangt, die Daten einer Person auf Anfrage zu finden und zu löschen, was ehrlich schwer ist, wenn sie über Tausende nicht indexierte Dateien verstreut sind¹⁵.
Es ist standardmäßig ungesteuert - dieselben Daten sind selten klassifiziert, Sie können also nicht sagen, was vertraulich, was veraltet oder was aufzubewahren ist.

Die deutsche Spannung zwischen Aufbewahren und Löschen

GoBD verlangt Aufbewahrung - geschäftliche E-Mails und Handelsbriefe sind sechs Jahre, Buchungsbelege acht bis zehn Jahre in ihrer ursprünglichen elektronischen Form aufzubewahren¹⁶.
DSGVO verlangt Löschung - personenbezogene Daten sind auf Anfrage zu löschen, sobald kein rechtmäßiger Grund mehr besteht, ohne Ausnahme für unstrukturierte Dateien¹⁵.
Beide treffen sich in Ihrem Postfach - eine einzige geschäftliche E-Mail kann zugleich ein aufzubewahrender Beleg und ein Behälter personenbezogener Daten sein, die Sie löschen müssen, und das lässt sich nicht auflösen, bis Sie lesen können, was darin steht.
Sichtbarkeit ist die Voraussetzung - Sie können unstrukturierte Daten erst steuern, aufbewahren und gezielt löschen, wenn eine KI-Schicht ihre Inhalte durchsuchbar und klassifizierbar macht.

Die Wert-Seite

✓ Der Großteil Ihres Wissens - das echte betriebliche Gedächtnis
✓ Der Treibstoff für KI - macht einen Agenten spezifisch für Sie, nicht generisch
✓ Bereits bezahlt - Sie besitzen es; es fehlte nur das Lesen

Die Haftungs-Seite

✗ Versteckte personenbezogene Daten - DSGVO-Risiko, das Sie nicht sehen
✗ Löschung ist schwer - Sie können nicht löschen, was Sie nicht finden
✗ Speicherverschwendung - Zahlen für überwiegend dunkle und ROT-Daten
✗ Aufbewahrungskonflikt - GoBD und DSGVO ziehen gegeneinander

Zur weiteren Frage, diese Wissensschicht unter eigener Rechtshoheit zu halten, sobald sie lesbar ist, siehe unseren Beitrag zum souveränen Company Brain.

“Datenökonomie ist ein Markt mit stark steigender Nachfrage und stagnierendem Angebot.”

- Dr. Ralf Wintergerst, Präsident des Bitkom¹⁴

Ein 90-Tage-Weg, um Ihre unstrukturierten Daten zu nutzen

Sie erschließen 80 Prozent Ihres Wissens nicht in einem Projekt, und Sie sollten es nicht versuchen. Ein fokussierter 90-Tage-Plan an einer Quelle beweist den Ansatz und baut den Fall für den Rest. Hier die Reihenfolge.

Der Phasenplan

Woche 1-2: Quelle und Schmerz wählen - wählen Sie einen häufigen Dokumenttyp, bei dem langsame oder falsche Antworten echtes Geld kosten, und nehmen Sie eine Basislinie aus Zeit und Fehlerquote.
Woche 3-4: Anbinden, nicht migrieren - erreichen Sie die Daten über einen Konnektor dort, wo sie liegen, und bestätigen Sie, dass Sie eine repräsentative Stichprobe lesen können, samt der chaotischen Scans.
Woche 5-8: Pipeline bauen - extrahieren, strukturieren und betten Sie die Inhalte ein, dann stimmen Sie das Retrieval ab, bis Antworten korrekt sind und ihre Quelle nennen.
Woche 9-10: Governance ergänzen - klassifizieren Sie, was Sie finden, kennzeichnen Sie sensible und personenbezogene Daten und definieren Sie die Aufbewahrung, damit GoBD- und DSGVO-Pflichten erfüllt sind.
Woche 11-12: Pilot und Messung - fahren Sie es mit einem Team, messen Sie gegen die Basislinie und wählen Sie mit dem Ergebnis die nächste Quelle.

Checkliste Reifegrad unstrukturierter Daten

Sie haben den ersten Dokumenttyp benannt und warum er wehtut
Sie haben eine Basiskennzahl, gegen die Sie die Verbesserung messen
Sie erreichen die Quelle über einen Konnektor ohne volle Migration
Sie können die chaotischen echten Dateien lesen, nicht nur die sauberen
Das Retrieval liefert die richtige Passage und nennt ihre Quelle
Sensible und personenbezogene Daten werden beim Indexieren markiert
Aufbewahrungspflichten (GoBD) und Löschpflichten (DSGVO) sind berücksichtigt
Sie haben eine definierte nächste Quelle, sobald die erste sich bewährt

Können Sie die ersten drei nicht abhaken, bauen Sie noch nicht, beginnen Sie mit der Wahl der Quelle. Der häufigste Fehler ist, alles auf einmal lesen zu wollen, statt die Pipeline an einem schmerzhaften, messbaren Dokumenttyp zu beweisen.

Wie Superkind passt

Superkind baut maßgeschneiderte KI-Agenten und das Company Brain, auf dem sie laufen, für KMU und Konzerne, und unstrukturierte Daten sind genau das, was wir nutzbar machen. Der Ansatz ist prozessorientiert: Wir starten bei den Dokumenten und Gesprächen, in denen Ihr Wissen tatsächlich lebt, nicht bei einer Plattform, die Sie füttern müssen.

Liest die chaotische Realität - wir bewältigen die schlechten Scans, gemischten Formate und uneinheitlichen Dokumente, an denen brüchige OCR und starre Tools scheitern.
Anbinden statt migrieren - das Brain erreicht E-Mail, Dateiablagen, ERP und DMS über Konnektoren, sodass nichts zuerst umziehen muss.
Bedeutungsbasiertes Retrieval - Antworten kommen aus der nach Bedeutung gefundenen richtigen Passage, nicht aus einem Stichworttreffer, über Ihren gesamten unstrukturierten Bestand.
Verankerte, belegte Antworten - jede Antwort verlinkt zurück auf das Dokument, aus dem sie stammt, sodass Mitarbeitende sie prüfen und Prüfer sie nachvollziehen können.
Governance eingebaut - wir klassifizieren und kennzeichnen sensible und personenbezogene Daten beim Indexieren, was DSGVO und GoBD beherrschbar statt theoretisch macht.
Startet an einer Quelle - wir beweisen den Wert an einem häufigen Dokumenttyp, bevor wir erweitern, statt ein Jahr Datenklempnerei zu verkaufen.
Läuft unter Ihrer Kontrolle - die Schicht kann in Ihrer eigenen Umgebung mit rollenbasiertem Zugriff laufen, sodass die unstrukturierten Daten Ihre Hände nie verlassen.
Ergebnisse, keine Lizenzen - die Preisgestaltung ist an einen messbaren ersten Anwendungsfall gebunden, nicht an Pro-Platz-Gebühren.

Ansatz	Klassische OCR / DMS	Superkind
Liest Bedeutung	Vorlagen und Stichworte	Versteht Inhalt wie ein Mensch
Chaotische Dateien	Bricht bei Ausnahmen	Bewältigt schlechte, gemischte Formate
Antworten	Liefert ein Dokument	Liefert eine belegte Antwort
Einführung	Ins System migrieren	Liest Daten, wo sie liegen
Governance	Manuelle Klassifizierung	Sensible Daten beim Indexieren markiert
Preis	Pro-Platz-Lizenzen	An ein messbares Ergebnis gebunden

Pro

✓ Gebaut für die chaotischen 80 % - die unstrukturierte Mehrheit, nicht die saubere Minderheit
✓ Prozessorientiert - startet dort, wo Ihr Wissen wirklich sitzt
✓ Kein Rip-and-Replace - liest die Systeme, die Sie schon betreiben
✓ Governance-bewusst - DSGVO und GoBD behandelt, nicht ignoriert
✓ Ergebnisbasierte Preise - an einen messbaren Anwendungsfall gebunden

Kontra

✗ Nicht Self-Service - erfordert Zusammenarbeit mit unserem Team
✗ Braucht Systemzugriff - wir binden Ihre echten Dateien an
✗ Verlangt eine klare erste Quelle - wir starten fokussiert, nicht überall
✗ Überzogen für saubere Datensätze - sind Ihre Daten schon strukturiert, brauchen Sie das vielleicht nicht

Entscheidungsrahmen: Sollten Sie Ihre unstrukturierten Daten jetzt angehen?

Nicht jedes Unternehmen muss dieses Quartal handeln, aber die meisten haben mehr zu gewinnen, als sie denken. So beurteilen Sie, wo Sie stehen und was als Nächstes zu tun ist.

Signal	Was es bedeutet	Maßnahme
Mitarbeitende durchsuchen ständig alte E-Mails und Dateien	Die Suchsteuer auf unstrukturierte Daten ist hoch	An der meistgesuchten Quelle starten
Ein Dokumenttyp wird in Menge von Hand bearbeitet	Hoher ROI, messbarer erster Anwendungsfall	Die Pipeline dort pilotieren
Sie planen KI-Agenten	Sie brauchen ohnehin lesbare Daten	Die unstrukturierten Daten zuerst nutzbar machen
Sie kämpfen mit DSGVO-Löschanfragen	Versteckte personenbezogene Daten sind ein reales Risiko	Indexieren und klassifizieren, um Kontrolle zurückzugewinnen
Wissen geht, wenn Menschen gehen	Es steckt in persönlichen unstrukturierten Ablagen	In eine abfragbare Schicht erfassen
Ihre Daten sind überwiegend sauber und strukturiert	Das Problem ist für Sie kleiner	Anderswo fokussieren, später erneut prüfen

Jetzt handeln

✓ Die Mehrheit erschließen - Ihr echtes Wissen nutzbar machen
✓ Fundament für KI - jeder spätere Agent läuft darauf
✓ Governance zurückgewinnen - endlich sehen, was in den Dateien steckt
✓ Es kumuliert - jede hinzugefügte Quelle macht das Brain reicher

Warten

✗ Wissen bleibt dunkel - die Mehrheit gibt weiter nichts zurück
✗ KI-Projekte stocken - Agenten leisten ohne lesbare Daten zu wenig
✗ Risiko wächst - jeden Monat mehr ungesteuerte personenbezogene Daten
✗ Speicherkosten laufen - Zahlen für dunkle und ROT-Daten

Häufig gestellte Fragen

Unstrukturierte Daten sind alle Informationen, die nicht sauber in die Zeilen und Spalten einer Datenbank passen. Dazu zählen E-Mails, PDFs, Verträge, eingescannte Dokumente, Bilder, Audio- und Videoaufnahmen, Chatnachrichten und handschriftliche Notizen. Strukturierte Daten sind die sauberen Zahlen in Ihrem ERP; unstrukturierte Daten sind alles andere, also die große Mehrheit dessen, was Ihr Unternehmen tatsächlich weiß. Das prägende Merkmal: Sie haben kein vordefiniertes Format, das ein klassisches System lesen kann.

Branchenschätzungen von IDC und Gartner setzen den Anteil bei rund 80 bis 90 Prozent aller Unternehmensdaten an, und er wächst, weil generative KI die Erzeugung von Dokumenten, Bildern und Gesprächen beschleunigt. Die Zahl ist eine Analystenschätzung, kein exakter Zensus, aber sie ist seit über einem Jahrzehnt konstant und wird regelmäßig bestätigt. Die praktische Erkenntnis ist bei jeder genauen Zahl dieselbe: Die strukturierten Daten im ERP sind die kleine sichtbare Spitze, die unstrukturierte Mehrheit liegt darunter.

Dark Data sind die Informationen, die ein Unternehmen im normalen Betrieb sammelt und speichert, aber nie für Analysen oder Entscheidungen nutzt - ein Begriff, den Gartner 2012 prägte. Eine Splunk-Studie fand, dass im Schnitt 55 Prozent der Daten einer Organisation dunkel sind, eine Veritas-Studie setzte Dark Data plus redundante, veraltete oder triviale Daten bei 85 Prozent des Gespeicherten an. Die meisten Dark Data sind unstrukturiert, deshalb bleiben sie unsichtbar: Die Systeme, die sie halten, können nicht lesen, was darin steht. Es ist bezahlter Speicher, der nichts zurückgibt, bis etwas ihn endlich deuten kann.

Datenbanken, ERPs und BI-Tools sind für strukturierte Daten mit festem Schema gebaut, sie können Zeilen zählen und sortieren, aber nicht die Bedeutung in einem Vertrag oder einer E-Mail verstehen. Stichwortsuche half etwas, lieferte aber eine Liste von Dokumenten, keine Antwort, und übersah alles, was anders formuliert war als die Anfrage. Bis Sprachmodelle kamen, brauchte das Lesen unstrukturierter Daten im großen Maßstab einen Menschen, der jede Datei öffnet. Deshalb wurde so viel davon dunkel: nicht weil es wertlos war, sondern weil Maschinen es nicht lesen konnten.

Große Sprachmodelle lesen Text, Bilder und Audio so, wie ein Mensch es tut, sie können also Bedeutung extrahieren, Fragen beantworten und Informationen über Tausende Dokumente hinweg verbinden. Kombiniert mit Retrieval-Techniken und Vektorsuche findet ein KI-System die richtige Passage nach Bedeutung statt nach Stichwort und liefert eine belegte Antwort. Das ist das Fundament eines Company Brain, das über Ihren unstrukturierten Daten sitzt und sie abfragbar macht. Die Daten änderten sich nicht; die Fähigkeit, sie zu lesen, schon.

Nein, auch wenn es Überschneidungen gibt. Big Data bezieht sich auf das schiere Volumen, die Geschwindigkeit und die Vielfalt von Daten, die strukturiert oder unstrukturiert sein können. Unstrukturierte Daten beschreiben das Format, also Informationen ohne vordefiniertes Schema, unabhängig von der Menge. Ein kleines Unternehmen ohne Big-Data-Problem hat trotzdem überwiegend unstrukturierte Daten, weil das meiste, was ein Betrieb festhält, Dokumente und Gespräche sind. Für einen Mittelständler zählt nicht das Volumen, sondern die Unlesbarkeit.

Ungesteuerte unstrukturierte Daten sind Kosten und Haftung zugleich. Sie zahlen für die Speicherung von Dateien, die niemand nutzt, und ein großer Teil ist redundant, veraltet oder trivial. Schwerer wiegt: Sensible und personenbezogene Daten verstecken sich in E-Mails und Dokumenten, wo Sie sie nicht leicht finden, was eine DSGVO-Löschanfrage schwer und einen Datenleck schlimmer macht. In Deutschland kollidiert das mit den GoBD-Aufbewahrungspflichten, die Daten müssen also zugleich aufbewahrt und löschbar sein, eine Spannung, die Sie erst beherrschen, wenn Sie sehen, was in den Dateien steht.

Die DSGVO gilt für personenbezogene Daten, wo immer sie liegen, auch in E-Mails, PDFs und Scans, ohne Ausnahme für unstrukturierte Formate. Das Recht auf Löschung nach Artikel 17 bedeutet, dass Sie die Daten einer Person auf Anfrage finden und löschen können müssen, was ehrlich schwer ist, wenn sie über Tausende nicht indexierte Dateien verstreut sind. Das deutsche Recht ergänzt GoBD-Aufbewahrungspflichten von sechs bis zehn Jahren für Geschäftskommunikation, Sie stehen also vor Lösch- und Aufbewahrungspflichten zugleich. Die einzig tragfähige Antwort ist, die unstrukturierten Daten durchsuchbar zu machen, um sie zu steuern.

Nein, und der Versuch ist meist ein Fehler. Ein moderner KI-Ansatz liest Ihre unstrukturierten Daten dort, wo sie schon liegen, in SharePoint, E-Mail, Dateiablagen und Ihrem ERP, über Konnektoren, statt zuerst eine riesige Migration zu erzwingen. Sie starten mit einer hochwertigen Quelle und einem Anwendungsfall, beweisen den Wert und fügen dann Quellen hinzu. Alles zu konsolidieren, bevor ein einziges Ergebnis vorliegt, ist der Weg, auf dem Wissensprojekte stecken bleiben. Beginnen Sie dort, wo es wehtut, nicht mit einem Jahr Datenklempnerei.

Den schnellsten Ertrag bringen Dokumenttypen, die häufig, repetitiv und derzeit von Hand bearbeitet werden: Eingangsrechnungen, Verträge, technische Zeichnungen, Serviceberichte und Kunden-E-Mails. Diese haben eine klare Vorher-Nachher-Kennzahl wie Zeit pro Dokument oder Fehlerquote, der Wert ist also leicht messbar. Starten Sie mit einem solchen Typ, bei dem eine falsche oder langsame Antwort teuer ist. Funktioniert es, erweitert sich dieselbe Pipeline auf den Rest Ihres unstrukturierten Bestands.

Nein, das Verhältnis ist für einen 150-Personen-Mittelständler dasselbe wie für einen Konzern: Das meiste, was Sie wissen, ist unstrukturiert. Kleinere Unternehmen spüren es eher schärfer, weil kritisches Wissen in wenigen Postfächern und Ordnern konzentriert ist. Die Technik, unstrukturierte Daten zu lesen, ist nicht mehr nur für Konzerne, ein fokussierter erster Anwendungsfall ist also bezahlbar. Die Hürde ist nicht die Größe, sondern die Entscheidung, die unsichtbare Mehrheit Ihres Wissens nutzbar zu machen.

Sie brauchen keine Data-Science-Abteilung, um zu beginnen. Wählen Sie einen Dokumenttyp, der Ihr Team echte Zeit kostet, binden Sie das System an, in dem er liegt, und legen Sie eine KI-Schicht darüber, die extrahiert, strukturiert und antwortet. Messen Sie die gesparte Zeit gegen eine Basislinie vor dem Start. Ein fokussierter Pilot auf einer Quelle zeigt meist innerhalb von Wochen Ergebnisse, genug, um die Erweiterung zu rechtfertigen. Der erste Schritt ist die Wahl des Anwendungsfalls, nicht das Einstellen eines Teams.

Quellen

Henri Jung

Mitgründer von Superkind, wo er KMU und Konzernen hilft, maßgeschneiderte KI-Agenten einzusetzen, die wirklich zu der Art passen, wie ihre Teams arbeiten. Henri brennt dafür, die Lücke zwischen dem, was KI kann, und dem Wert, den sie in echten Unternehmen schafft, zu schließen. Er ist überzeugt, dass der Mittelstand alles hat, um bei KI zu führen - er braucht nur den richtigen Ansatz.

Bereit, die 80 % Ihrer Daten zu nutzen, die Sie bisher ignoriert haben?

Buchen Sie ein 30-Minuten-Gespräch mit Henri. Wir kartieren, wo Ihr unstrukturiertes Wissen sitzt, wählen die Quelle, die zuerst lesbar wird, und umreißen einen ersten Anwendungsfall - ohne Verpflichtung, ohne Verkaufsgespräch.