Fragen Sie einen Mittelständler, wo das Unternehmen sein Wissen aufbewahrt, und er zeigt auf das ERP. Dieses System hält die Aufträge, die Bestände, die Rechnungen, die sauberen Zahlen in ordentlichen Zeilen. Es ist zugleich die kleine sichtbare Spitze des Eisbergs. Das Jahrzehnt an Kunden-E-Mails, die Verträge mit handverhandelten Klauseln, die Serviceberichte, die technischen Zeichnungen, die Besprechungsnotizen, die Fotos vom letzten Audit, all das sind auch Daten, und sie stellen das ERP in den Schatten.
Branchenschätzungen setzen diese Art von Daten, unstrukturierte Daten, bei rund 80 bis 90 Prozent von allem an, was ein Unternehmen hält. Für die meisten Betriebe ist die überwältigende Mehrheit dessen, was sie wissen, unsichtbar für die Systeme, auf die sie sich verlassen, weil diese nie dafür gebaut wurden, einen Satz zu lesen, sondern nur, ein Feld zu zählen. Das ist keine kleine Lücke. Es ist der Großteil Ihres betrieblichen Wissens, der im Dunkeln liegt.
Dieser Artikel handelt von dieser unsichtbaren Mehrheit: was unstrukturierte Daten wirklich sind, warum sie jahrzehntelang totes Kapital waren und warum 2026 der Moment ist, der das ändert, weil KI sie endlich lesen kann. Wir zeigen, wo sie sich in Ihrem Betrieb verstecken, wie Sie sie in etwas Abfragbares verwandeln, die Governance- und DSGVO-Fallen, die nur für sie gelten, und einen 90-Tage-Weg zum Start. Die Daten waren die ganze Zeit da. Neu ist, dass Sie sie endlich nutzen können.
Kurzfassung
Das meiste, was Sie wissen, ist unstrukturiert - E-Mails, PDFs, Verträge, Bilder und Notizen machen geschätzt 80 bis 90 Prozent der Unternehmensdaten aus, weit mehr als die strukturierten Zeilen im ERP.
Es war totes Kapital - im Schnitt sind 55 Prozent der Daten “dunkel”, nie genutzt, und nur etwa 32 Prozent der verfügbaren Daten werden je eingesetzt.
Klassische Systeme können es nicht lesen - Datenbanken zählen Felder; sie verstehen nicht die Bedeutung in einem Vertrag oder einer E-Mail, also blieben die Daten unsichtbar.
KI ändert das jetzt - Sprachmodelle lesen Dokumente, Bilder und Audio wie ein Mensch, was ein Company Brain über Ihren unstrukturierten Daten erst möglich macht.
Es ist auch ein verstecktes Risiko - sensible und personenbezogene Daten lauern in Dateien, die Sie nicht durchsuchen können, was mit DSGVO-Löschpflichten und den deutschen GoBD-Aufbewahrungsregeln kollidiert.
Mit einer Quelle starten - lesen Sie die Daten dort, wo sie liegen, beweisen Sie den Wert an einem häufigen Dokumenttyp und erweitern Sie dann, statt zuerst eine riesige Migration zu versuchen.
Die unsichtbare Mehrheit dessen, was Ihr Unternehmen weiß
Die Zahlen, die Ihr Geschäft steuern, sind der Teil, den Sie sehen und messen können. Das Wissen, das Ihr Geschäft steuert, ist überwiegend der Teil, den Sie nicht sehen. Dieser Bruch ist der Kern des Problems mit unstrukturierten Daten, und er ist größer, als die meisten Eigentümer ahnen.
- Das Kernverhältnis - IDC- und Gartner-Schätzungen setzen unstrukturierte Daten bei rund 80 bis 90 Prozent aller Unternehmensdaten an, ein IDC-White-Paper sagt schlicht, 90 Prozent der Daten seien unstrukturiert1,2.
- Die Ausgaben sind verkehrt herum - dieselbe Forschung fand, dass rund 40 Prozent der IT-Ausgaben in das Managen unstrukturierter Daten fließen, während 60 Prozent die kleine strukturierte Minderheit stützen, ein Missverhältnis zwischen Datenlage und Geldfluss1.
- Es wächst schneller - IDC berichtet, der Mix verschiebe sich deutlicher zu unstrukturierten Daten, beschleunigt durch generative KI, die immer mehr Dokumente, Bilder und Gespräche erzeugt7.
- Die Summe ist gewaltig - die globale Datensphäre sollte bis 2025 auf 175 Zettabyte wachsen, und der unstrukturierte Anteil ist der Großteil davon6.
- Ihr Betrieb ist keine Ausnahme - das Verhältnis gilt für einen 150-Personen-Mittelständler ebenso wie für einen Konzern, weil das meiste, was ein Betrieb festhält, Dokumente und Gespräche sind.
Der Kerngedanke
Wenn 80 bis 90 Prozent dessen, was Ihr Unternehmen weiß, unstrukturiert ist, dann arbeitet jedes System, das nur für strukturierte Daten gebaut wurde, Ihr ERP, Ihre BI-Dashboards, Ihre Reports, mit der kleinen Minderheit Ihres Wissens. Entscheidungen auf dieser Basis werden mit einem offenen Auge getroffen. Die unstrukturierte Mehrheit ist nicht das Rauschen um die Daten herum, sie ist der Großteil der Daten.
Der Wert dieser Mehrheit wurde längst erkannt. Das Problem war nie, dass es ihr an Wert fehlte. Das Problem war, dass niemand sie zu etwas Nutzbarem veredeln konnte, genau die Warnung hinter dem meistzitierten Satz der Datenwelt.
“Data is the new oil. It’s valuable, but if unrefined it cannot really be used... so must data be broken down, analyzed, for it to have value.”
- Clive Humby, Mathematiker und Architekt der Tesco Clubcard17
Was unstrukturierte Daten wirklich sind
Der Begriff klingt technisch, die Idee ist einfach. Strukturierte Daten passen in Zeilen und Spalten mit festem Format. Unstrukturierte Daten sind alles, was das nicht tut, also das meiste, was Menschen bei der Arbeit tatsächlich erzeugen. Eine klare Definition macht den Rest des Artikels greifbar.
Die drei Kategorien
- Strukturierte Daten - passen in ein vordefiniertes Schema aus Zeilen und Spalten, etwa die Datensätze in ERP, CRM oder Buchhaltung. Leicht von Maschinen zu sortieren und zu zählen. Die Minderheit.
- Semi-strukturierte Daten - haben Tags oder Marker, aber keine starre Tabelle, etwa JSON, XML, CSV oder eine E-Rechnung. Teils maschinenlesbar, üblich im System-zu-System-Austausch.
- Unstrukturierte Daten - haben gar kein vordefiniertes Format: Freitext, Dokumente, Bilder, Audio, Video. Reich an Bedeutung, aber für eine Datenbank undurchsichtig12.
Wie unstrukturierte Daten in einem echten Betrieb aussehen
| Typ | Beispiele in Ihrem Unternehmen | Was es enthält |
|---|---|---|
| Dokumente | Verträge, Angebote, Specs, PDFs, Präsentationen | Konditionen, Preise, Zusagen, Know-how |
| E-Mail und Chat | Postfächer, Teams, Kunden-Threads | Entscheidungen, Absprachen, Historie |
| Bilder | Scans, Fotos, Zeichnungen, Prüfaufnahmen | Mängel, Layouts, Nachweise |
| Audio und Video | Anrufe, Voicemails, aufgezeichnete Meetings | Zusagen, Kontext, Absicht |
| Notizen und Berichte | Serviceberichte, Feldnotizen, Protokolle | Implizites Wissen aus der Praxis |
Das verräterische Zeichen
Ein einfacher Test, ob Daten unstrukturiert sind: Könnten Sie sie in einer Tabellenspalte sortieren, und wäre das sinnvoll? Eine Liste von Rechnungssummen, ja. Der Text einer Lieferanten-E-Mail, die erklärt, warum eine Lieferung rutschte, nein. In dem Moment, in dem der Wert in der Bedeutung von Wörtern oder im Inhalt eines Bildes steckt statt in einem festen Feld, sehen Sie unstrukturierte Daten, und das Wissen, das Ihre klassischen Systeme nicht erreichen.
Warum es jahrzehntelang totes Kapital war
Unternehmen wussten immer, dass diese Daten zählen. Sie hielten sie, speicherten sie, sicherten sie. Sie konnten sie nur nicht nutzen, weil die Werkzeuge, sie im großen Maßstab zu lesen, nicht existierten. Das Ergebnis ist ein riesiges, bezahltes Archiv, das fast nichts zurückgibt, ein Muster, das die Branche benannt hat.
Das Dark-Data-Problem
- Das meiste wird nie genutzt - Gartner prägte 2012 “Dark Data” für gesammelte, aber nie angewandte Informationen, und Splunk fand, dass im Schnitt 55 Prozent der Daten einer Organisation dunkel sind3,4,5.
- Die Verschwendung ist noch größer - eine Veritas-Studie setzte Dark Data plus redundante, veraltete oder triviale Daten bei 85 Prozent des Gespeicherten an, nur 15 Prozent waren geschäftskritisch9.
- Wenig wird eingesetzt - eine Studie von Seagate und IDC fand, dass nur etwa 32 Prozent der verfügbaren Daten je genutzt werden, 68 Prozent bleiben ungenutzt8.
- Es kostet trotzdem Geld - Dark Data sind nicht gratis; Sie zahlen für Speicherung, Sicherung und Backup von Dateien, die nichts zurückgeben, bis etwas sie lesen kann.
Warum die alten Werkzeuge es nicht lesen konnten
- Datenbanken brauchen ein Schema - sie zählen und sortieren feste Felder und können die Bedeutung eines Absatzes oder den Inhalt eines Fotos nicht deuten.
- Stichwortsuche liefert Links, keine Antworten - sie findet Dateien mit einem Wort, kann aber nicht zusammenfassen und übersieht alles, was anders formuliert ist als die Anfrage.
- Manuelles Lesen skaliert nicht - der einzige verlässliche Weg, ein Dokument zu nutzen, war, dass ein Mensch es öffnet, was bei zehn Dateien geht und bei zehn Millionen unmöglich ist.
- Also wurde es dunkel - nicht weil es wertlos war, sondern weil es im großen Maßstab zu lesen bis vor Kurzem technisch unmöglich war.
| Studie | Befund | Folge |
|---|---|---|
| Splunk State of Dark Data | 55 % der Daten sind dunkel4 | Mehr als die Hälfte wird nie genutzt |
| Veritas Global Databerg | 85 % Dark oder ROT9 | Nur 15 % sind geschäftskritisch |
| Seagate / IDC Rethink Data | 32 % werden genutzt8 | Zwei Drittel des Werts bleiben liegen |
| IDC / Box | 90 % der Daten unstrukturiert1 | Die dunkle Mehrheit hat kein Schema |
Warum KI das 2026 endlich ändert
Der Grund, warum unstrukturierte Daten plötzlich ein aktuelles Thema sind, ist nicht, dass sich die Daten geändert hätten. Es ist, dass Maschinen lesen lernten. Große Sprachmodelle tun mit einem Dokument, was ein Mensch tut, sie verstehen es, was die eine Barriere beseitigt, die diese Daten jahrzehntelang dunkel hielt.
Was die Technik jetzt leistet
- Modelle lesen wie Menschen - ein LLM extrahiert Bedeutung aus Text, Bildern und Audio, kann also eine Frage zu einem Vertrag beantworten, statt nur die Datei zu finden.
- Retrieval findet nach Bedeutung - Vektorsuche und Retrieval-Augmented Generation finden die richtige Passage nach Bedeutung, nicht nach exakten Wörtern, und verankern eine Antwort darin.
- Es skaliert - derselbe Ansatz liest zehn Millionen Dokumente so bereitwillig wie zehn, genau das, was manuelles Lesen nie konnte.
- Es wird zum Company Brain - zusammengenommen ist das eine abfragbare Schicht über Ihren unstrukturierten Daten, das Fundament, das wir in was kein Company Brain wirklich kostet beschreiben.
Warum das der Engpass für KI ist, kein Nebenthema
- Daten, nicht Modelle, sind die Grenze - McKinsey fand, dass acht von zehn Unternehmen Datenlimits als Hürde beim Skalieren agentischer KI nennen, und das meiste davon ist unstrukturiert10.
- Adoption ist real, aber flach - 88 Prozent der Organisationen nutzen KI in mindestens einer Funktion, doch nur etwa ein Drittel hat sie skaliert, oft weil die Daten nicht bereit sind11.
- Unstrukturierte Daten sind der Treibstoff - ein KI-Agent ohne Zugriff auf Ihre Dokumente und E-Mails ist generisch; der Wert kommt aus dem unstrukturierten Wissen, das nur Sie haben.
- Die Reihenfolge zählt - Unternehmen, die ihre unstrukturierten Daten zuerst lesbar machen, bekommen zinseszinsartige Erträge; wer das überspringt, baut für jedes Projekt den Kontext neu.
Die Verschiebung in einem Satz
Dreißig Jahre lautete die Frage “wie speichern wir all diese Daten”. Die Frage für 2026 lautet “wie lesen wir sie endlich”. Das Speicherproblem wurde längst gelöst. Das Leseproblem gerade eben, und deshalb sind die 80 Prozent Ihres Wissens, die dunkel waren, plötzlich ein nutzbares Gut.
Neugierig, was in Ihren unstrukturierten Daten steckt?
Buchen Sie ein 30-Minuten-Gespräch und wir kartieren, wo Ihr Wissen sitzt und welche Quelle zuerst lesbar werden sollte.

Wo Ihre unstrukturierten Daten sich wirklich verstecken
Unstrukturierte Daten liegen nicht an einem Ort; sie sind über jede Abteilung verstreut, meist in den Systemen, in denen gearbeitet wird, nicht dort, wo Daten verwaltet werden. Die Verstecke zu benennen ist der erste Schritt, das in ihnen zu nutzen.
Nach Abteilung
- Vertrieb und Service - Kunden-E-Mails, Gesprächsnotizen, Angebote und die Historie, warum ein Auftrag gewonnen oder ein Preis gegeben wurde.
- Betrieb und Produktion - Serviceberichte, Wartungslogs, Prüffotos und das Störungswissen in den Notizen eines Einrichters.
- Finanzen und Einkauf - Eingangsrechnungen, Verträge, Lieferantenkorrespondenz und die in Rahmenverträgen vergrabenen Konditionen.
- Recht und Compliance - Verträge, NDAs, Richtlinien und Audit-Dokumentation, fast alles Freitext in PDFs.
- HR und Geschäftsführung - Bewerbungen, Beurteilungen, Protokolle und Entscheidungen, die nur in einem Postfach festgehalten sind.
- Engineering - Zeichnungen, Spezifikationen, Handbücher und die Konstruktionsbegründung, die eher in Notizen und E-Mail lebt als in der CAD-Datei.
Nach System
| System | Unstrukturierter Inhalt | Typischer Zustand |
|---|---|---|
| E-Mail-Server | Jahre an Threads und Anhängen | Bestenfalls per Stichwort durchsuchbar |
| Dateiablagen und SharePoint | Dokumente, Scans, Präsentationen | Ordnerwildwuchs, vieles veraltet |
| ERP-Anhänge | PDFs und Notizen an Datensätzen | Unsichtbar fürs ERP-Reporting |
| Persönliche Laufwerke | Lokale Kopien und Arbeitsdateien | Außerhalb jeder Governance |
| Chat und Aufzeichnungen | Teams-Nachrichten, aufgezeichnete Anrufe | Selten indexiert oder wiederverwendet |
Das Muster ist konstant: Das wertvollste unstrukturierte Wissen liegt in den meistgenutzten Systemen, E-Mail und Dateiablagen, wo es am wenigsten gesteuert ist. Unser Leitfaden, einen Agenten auf zehn Jahre SharePoint-Dokumente zu setzen, geht tief auf eine der reichsten dieser Quellen ein.
Unstrukturierte Daten in etwas Nutzbares verwandeln
Unstrukturierte Daten nutzbar zu machen ist eine Pipeline, kein einzelnes Produkt. Jede Stufe verwandelt rohe Dateien in Antworten, und die Stufen zu verstehen, zeigt, wo die Arbeit wirklich liegt. Das Trichterbild weiter oben ist die buchstäbliche Form davon: Gewirr hinein, Struktur heraus.
Die Pipeline, Stufe für Stufe
- Anbinden - die Daten dort erreichen, wo sie liegen, in E-Mail, Dateiablagen, ERP und DMS, über Konnektoren, statt zuerst alles zu migrieren.
- Extrahieren - jede Datei lesen, ob PDF, Scan oder Bild, und Text und Bedeutung herausziehen, hier ersetzt intelligente Dokumentenverarbeitung die brüchige OCR.
- Strukturieren und einbetten - die Bedeutung in eine durchsuchbare Form bringen, samt Vektor-Embeddings, die erfassen, worum es in einer Passage geht.
- Abrufen - bei einer Frage die richtige Passage nach Bedeutung finden, über Tausende Dokumente hinweg, in Sekunden.
- Antworten und verankern - eine Antwort erzeugen, die an das Quelldokument zurückgebunden ist, sodass Mitarbeitende ihr vertrauen und sie prüfen können, statt sie blind zu glauben.
Wo die eigentliche Arbeit liegt
Man nimmt an, der schwere Teil sei das KI-Modell, das die finale Antwort schreibt. Ist er nicht. Der schwere Teil ist die unglamouröse Mitte: chaotische Quellen anbinden, schlechte Scans lesen und das Retrieval dazu bringen, die richtige Passage zu liefern. Stimmt das, erzeugt fast jedes fähige Modell gute Antworten. Stimmt es nicht, antwortet das beste Modell der Welt aus dem falschen Dokument. Der Wert steckt in der Pipeline, nicht in der Schlagzeile.
Die Dokumenttypen mit dem schnellsten Ertrag
- Eingangsrechnungen - häufig, repetitiv und messbar, das klassische erste Ziel, behandelt in unserem Beitrag, OCR durch intelligente Dokumentenverarbeitung zu ersetzen.
- Verträge - dicht an Konditionen, die ein Mensch heraussuchen muss, wo eine Abfrage, die die richtige Klausel liefert, echte Zeit spart.
- Service- und Feldberichte - voller Störungswissen, das sonst im Kopf eines Technikers bleibt.
- Kunden-E-Mails - die Historie jeder Beziehung, meist nur für die Person durchsuchbar, die sie geschrieben hat.
- Technische Zeichnungen und Specs - wo Konstruktionsbegründung und gebaute Realität oft von der CAD-Datei abweichen.
Die Governance- und Risikoseite, die niemand erwähnt
Unstrukturierte Daten sind nicht nur ungenutzter Wert; sie sind auch unkontrolliertes Risiko. Weil Sie nicht sehen, was in den Dateien steht, können Sie sie nicht leicht schützen, steuern oder löschen, und in Deutschland trifft das auf zwei rechtliche Pflichten, die in entgegengesetzte Richtungen ziehen.
Die versteckten Risiken
- Sensible Daten verstecken sich offen - personenbezogene Daten, Gehälter und Gesundheitsdaten sitzen in E-Mails und Dokumenten, wo niemand sie indexiert hat, sodass ein Leck mehr offenlegt als erwartet.
- Sie zahlen für die Speicherung von Müll - mit bis zu 85 Prozent Dark oder redundanten Daten schützt ein Großteil Ihrer Speicher- und Backup-Kosten Dateien, die nie genutzt werden9.
- Löschung wird fast unmöglich - das DSGVO-Recht auf Vergessenwerden verlangt, die Daten einer Person auf Anfrage zu finden und zu löschen, was ehrlich schwer ist, wenn sie über Tausende nicht indexierte Dateien verstreut sind15.
- Es ist standardmäßig ungesteuert - dieselben Daten sind selten klassifiziert, Sie können also nicht sagen, was vertraulich, was veraltet oder was aufzubewahren ist.
Die deutsche Spannung zwischen Aufbewahren und Löschen
- GoBD verlangt Aufbewahrung - geschäftliche E-Mails und Handelsbriefe sind sechs Jahre, Buchungsbelege acht bis zehn Jahre in ihrer ursprünglichen elektronischen Form aufzubewahren16.
- DSGVO verlangt Löschung - personenbezogene Daten sind auf Anfrage zu löschen, sobald kein rechtmäßiger Grund mehr besteht, ohne Ausnahme für unstrukturierte Dateien15.
- Beide treffen sich in Ihrem Postfach - eine einzige geschäftliche E-Mail kann zugleich ein aufzubewahrender Beleg und ein Behälter personenbezogener Daten sein, die Sie löschen müssen, und das lässt sich nicht auflösen, bis Sie lesen können, was darin steht.
- Sichtbarkeit ist die Voraussetzung - Sie können unstrukturierte Daten erst steuern, aufbewahren und gezielt löschen, wenn eine KI-Schicht ihre Inhalte durchsuchbar und klassifizierbar macht.
Unstrukturierte Daten: Wert vs. Haftung
Die Wert-Seite
- ✓ Der Großteil Ihres Wissens - das echte betriebliche Gedächtnis
- ✓ Der Treibstoff für KI - macht einen Agenten spezifisch für Sie, nicht generisch
- ✓ Bereits bezahlt - Sie besitzen es; es fehlte nur das Lesen
Die Haftungs-Seite
- ✗ Versteckte personenbezogene Daten - DSGVO-Risiko, das Sie nicht sehen
- ✗ Löschung ist schwer - Sie können nicht löschen, was Sie nicht finden
- ✗ Speicherverschwendung - Zahlen für überwiegend dunkle und ROT-Daten
- ✗ Aufbewahrungskonflikt - GoBD und DSGVO ziehen gegeneinander
Zur weiteren Frage, diese Wissensschicht unter eigener Rechtshoheit zu halten, sobald sie lesbar ist, siehe unseren Beitrag zum souveränen Company Brain.
“Datenökonomie ist ein Markt mit stark steigender Nachfrage und stagnierendem Angebot.”
- Dr. Ralf Wintergerst, Präsident des Bitkom14
Ein 90-Tage-Weg, um Ihre unstrukturierten Daten zu nutzen
Sie erschließen 80 Prozent Ihres Wissens nicht in einem Projekt, und Sie sollten es nicht versuchen. Ein fokussierter 90-Tage-Plan an einer Quelle beweist den Ansatz und baut den Fall für den Rest. Hier die Reihenfolge.
Der Phasenplan
- Woche 1-2: Quelle und Schmerz wählen - wählen Sie einen häufigen Dokumenttyp, bei dem langsame oder falsche Antworten echtes Geld kosten, und nehmen Sie eine Basislinie aus Zeit und Fehlerquote.
- Woche 3-4: Anbinden, nicht migrieren - erreichen Sie die Daten über einen Konnektor dort, wo sie liegen, und bestätigen Sie, dass Sie eine repräsentative Stichprobe lesen können, samt der chaotischen Scans.
- Woche 5-8: Pipeline bauen - extrahieren, strukturieren und betten Sie die Inhalte ein, dann stimmen Sie das Retrieval ab, bis Antworten korrekt sind und ihre Quelle nennen.
- Woche 9-10: Governance ergänzen - klassifizieren Sie, was Sie finden, kennzeichnen Sie sensible und personenbezogene Daten und definieren Sie die Aufbewahrung, damit GoBD- und DSGVO-Pflichten erfüllt sind.
- Woche 11-12: Pilot und Messung - fahren Sie es mit einem Team, messen Sie gegen die Basislinie und wählen Sie mit dem Ergebnis die nächste Quelle.
Checkliste Reifegrad unstrukturierter Daten
- Sie haben den ersten Dokumenttyp benannt und warum er wehtut
- Sie haben eine Basiskennzahl, gegen die Sie die Verbesserung messen
- Sie erreichen die Quelle über einen Konnektor ohne volle Migration
- Sie können die chaotischen echten Dateien lesen, nicht nur die sauberen
- Das Retrieval liefert die richtige Passage und nennt ihre Quelle
- Sensible und personenbezogene Daten werden beim Indexieren markiert
- Aufbewahrungspflichten (GoBD) und Löschpflichten (DSGVO) sind berücksichtigt
- Sie haben eine definierte nächste Quelle, sobald die erste sich bewährt
Können Sie die ersten drei nicht abhaken, bauen Sie noch nicht, beginnen Sie mit der Wahl der Quelle. Der häufigste Fehler ist, alles auf einmal lesen zu wollen, statt die Pipeline an einem schmerzhaften, messbaren Dokumenttyp zu beweisen.
Wie Superkind passt
Superkind baut maßgeschneiderte KI-Agenten und das Company Brain, auf dem sie laufen, für KMU und Konzerne, und unstrukturierte Daten sind genau das, was wir nutzbar machen. Der Ansatz ist prozessorientiert: Wir starten bei den Dokumenten und Gesprächen, in denen Ihr Wissen tatsächlich lebt, nicht bei einer Plattform, die Sie füttern müssen.
- Liest die chaotische Realität - wir bewältigen die schlechten Scans, gemischten Formate und uneinheitlichen Dokumente, an denen brüchige OCR und starre Tools scheitern.
- Anbinden statt migrieren - das Brain erreicht E-Mail, Dateiablagen, ERP und DMS über Konnektoren, sodass nichts zuerst umziehen muss.
- Bedeutungsbasiertes Retrieval - Antworten kommen aus der nach Bedeutung gefundenen richtigen Passage, nicht aus einem Stichworttreffer, über Ihren gesamten unstrukturierten Bestand.
- Verankerte, belegte Antworten - jede Antwort verlinkt zurück auf das Dokument, aus dem sie stammt, sodass Mitarbeitende sie prüfen und Prüfer sie nachvollziehen können.
- Governance eingebaut - wir klassifizieren und kennzeichnen sensible und personenbezogene Daten beim Indexieren, was DSGVO und GoBD beherrschbar statt theoretisch macht.
- Startet an einer Quelle - wir beweisen den Wert an einem häufigen Dokumenttyp, bevor wir erweitern, statt ein Jahr Datenklempnerei zu verkaufen.
- Läuft unter Ihrer Kontrolle - die Schicht kann in Ihrer eigenen Umgebung mit rollenbasiertem Zugriff laufen, sodass die unstrukturierten Daten Ihre Hände nie verlassen.
- Ergebnisse, keine Lizenzen - die Preisgestaltung ist an einen messbaren ersten Anwendungsfall gebunden, nicht an Pro-Platz-Gebühren.
| Ansatz | Klassische OCR / DMS | Superkind |
|---|---|---|
| Liest Bedeutung | Vorlagen und Stichworte | Versteht Inhalt wie ein Mensch |
| Chaotische Dateien | Bricht bei Ausnahmen | Bewältigt schlechte, gemischte Formate |
| Antworten | Liefert ein Dokument | Liefert eine belegte Antwort |
| Einführung | Ins System migrieren | Liest Daten, wo sie liegen |
| Governance | Manuelle Klassifizierung | Sensible Daten beim Indexieren markiert |
| Preis | Pro-Platz-Lizenzen | An ein messbares Ergebnis gebunden |
Superkind
Pro
- ✓ Gebaut für die chaotischen 80 % - die unstrukturierte Mehrheit, nicht die saubere Minderheit
- ✓ Prozessorientiert - startet dort, wo Ihr Wissen wirklich sitzt
- ✓ Kein Rip-and-Replace - liest die Systeme, die Sie schon betreiben
- ✓ Governance-bewusst - DSGVO und GoBD behandelt, nicht ignoriert
- ✓ Ergebnisbasierte Preise - an einen messbaren Anwendungsfall gebunden
Kontra
- ✗ Nicht Self-Service - erfordert Zusammenarbeit mit unserem Team
- ✗ Braucht Systemzugriff - wir binden Ihre echten Dateien an
- ✗ Verlangt eine klare erste Quelle - wir starten fokussiert, nicht überall
- ✗ Überzogen für saubere Datensätze - sind Ihre Daten schon strukturiert, brauchen Sie das vielleicht nicht
Entscheidungsrahmen: Sollten Sie Ihre unstrukturierten Daten jetzt angehen?
Nicht jedes Unternehmen muss dieses Quartal handeln, aber die meisten haben mehr zu gewinnen, als sie denken. So beurteilen Sie, wo Sie stehen und was als Nächstes zu tun ist.
| Signal | Was es bedeutet | Maßnahme |
|---|---|---|
| Mitarbeitende durchsuchen ständig alte E-Mails und Dateien | Die Suchsteuer auf unstrukturierte Daten ist hoch | An der meistgesuchten Quelle starten |
| Ein Dokumenttyp wird in Menge von Hand bearbeitet | Hoher ROI, messbarer erster Anwendungsfall | Die Pipeline dort pilotieren |
| Sie planen KI-Agenten | Sie brauchen ohnehin lesbare Daten | Die unstrukturierten Daten zuerst nutzbar machen |
| Sie kämpfen mit DSGVO-Löschanfragen | Versteckte personenbezogene Daten sind ein reales Risiko | Indexieren und klassifizieren, um Kontrolle zurückzugewinnen |
| Wissen geht, wenn Menschen gehen | Es steckt in persönlichen unstrukturierten Ablagen | In eine abfragbare Schicht erfassen |
| Ihre Daten sind überwiegend sauber und strukturiert | Das Problem ist für Sie kleiner | Anderswo fokussieren, später erneut prüfen |
Jetzt handeln vs. warten
Jetzt handeln
- ✓ Die Mehrheit erschließen - Ihr echtes Wissen nutzbar machen
- ✓ Fundament für KI - jeder spätere Agent läuft darauf
- ✓ Governance zurückgewinnen - endlich sehen, was in den Dateien steckt
- ✓ Es kumuliert - jede hinzugefügte Quelle macht das Brain reicher
Warten
- ✗ Wissen bleibt dunkel - die Mehrheit gibt weiter nichts zurück
- ✗ KI-Projekte stocken - Agenten leisten ohne lesbare Daten zu wenig
- ✗ Risiko wächst - jeden Monat mehr ungesteuerte personenbezogene Daten
- ✗ Speicherkosten laufen - Zahlen für dunkle und ROT-Daten
Häufig gestellte Fragen
Unstrukturierte Daten sind alle Informationen, die nicht sauber in die Zeilen und Spalten einer Datenbank passen. Dazu zählen E-Mails, PDFs, Verträge, eingescannte Dokumente, Bilder, Audio- und Videoaufnahmen, Chatnachrichten und handschriftliche Notizen. Strukturierte Daten sind die sauberen Zahlen in Ihrem ERP; unstrukturierte Daten sind alles andere, also die große Mehrheit dessen, was Ihr Unternehmen tatsächlich weiß. Das prägende Merkmal: Sie haben kein vordefiniertes Format, das ein klassisches System lesen kann.
Branchenschätzungen von IDC und Gartner setzen den Anteil bei rund 80 bis 90 Prozent aller Unternehmensdaten an, und er wächst, weil generative KI die Erzeugung von Dokumenten, Bildern und Gesprächen beschleunigt. Die Zahl ist eine Analystenschätzung, kein exakter Zensus, aber sie ist seit über einem Jahrzehnt konstant und wird regelmäßig bestätigt. Die praktische Erkenntnis ist bei jeder genauen Zahl dieselbe: Die strukturierten Daten im ERP sind die kleine sichtbare Spitze, die unstrukturierte Mehrheit liegt darunter.
Dark Data sind die Informationen, die ein Unternehmen im normalen Betrieb sammelt und speichert, aber nie für Analysen oder Entscheidungen nutzt - ein Begriff, den Gartner 2012 prägte. Eine Splunk-Studie fand, dass im Schnitt 55 Prozent der Daten einer Organisation dunkel sind, eine Veritas-Studie setzte Dark Data plus redundante, veraltete oder triviale Daten bei 85 Prozent des Gespeicherten an. Die meisten Dark Data sind unstrukturiert, deshalb bleiben sie unsichtbar: Die Systeme, die sie halten, können nicht lesen, was darin steht. Es ist bezahlter Speicher, der nichts zurückgibt, bis etwas ihn endlich deuten kann.
Datenbanken, ERPs und BI-Tools sind für strukturierte Daten mit festem Schema gebaut, sie können Zeilen zählen und sortieren, aber nicht die Bedeutung in einem Vertrag oder einer E-Mail verstehen. Stichwortsuche half etwas, lieferte aber eine Liste von Dokumenten, keine Antwort, und übersah alles, was anders formuliert war als die Anfrage. Bis Sprachmodelle kamen, brauchte das Lesen unstrukturierter Daten im großen Maßstab einen Menschen, der jede Datei öffnet. Deshalb wurde so viel davon dunkel: nicht weil es wertlos war, sondern weil Maschinen es nicht lesen konnten.
Große Sprachmodelle lesen Text, Bilder und Audio so, wie ein Mensch es tut, sie können also Bedeutung extrahieren, Fragen beantworten und Informationen über Tausende Dokumente hinweg verbinden. Kombiniert mit Retrieval-Techniken und Vektorsuche findet ein KI-System die richtige Passage nach Bedeutung statt nach Stichwort und liefert eine belegte Antwort. Das ist das Fundament eines Company Brain, das über Ihren unstrukturierten Daten sitzt und sie abfragbar macht. Die Daten änderten sich nicht; die Fähigkeit, sie zu lesen, schon.
Nein, auch wenn es Überschneidungen gibt. Big Data bezieht sich auf das schiere Volumen, die Geschwindigkeit und die Vielfalt von Daten, die strukturiert oder unstrukturiert sein können. Unstrukturierte Daten beschreiben das Format, also Informationen ohne vordefiniertes Schema, unabhängig von der Menge. Ein kleines Unternehmen ohne Big-Data-Problem hat trotzdem überwiegend unstrukturierte Daten, weil das meiste, was ein Betrieb festhält, Dokumente und Gespräche sind. Für einen Mittelständler zählt nicht das Volumen, sondern die Unlesbarkeit.
Ungesteuerte unstrukturierte Daten sind Kosten und Haftung zugleich. Sie zahlen für die Speicherung von Dateien, die niemand nutzt, und ein großer Teil ist redundant, veraltet oder trivial. Schwerer wiegt: Sensible und personenbezogene Daten verstecken sich in E-Mails und Dokumenten, wo Sie sie nicht leicht finden, was eine DSGVO-Löschanfrage schwer und einen Datenleck schlimmer macht. In Deutschland kollidiert das mit den GoBD-Aufbewahrungspflichten, die Daten müssen also zugleich aufbewahrt und löschbar sein, eine Spannung, die Sie erst beherrschen, wenn Sie sehen, was in den Dateien steht.
Die DSGVO gilt für personenbezogene Daten, wo immer sie liegen, auch in E-Mails, PDFs und Scans, ohne Ausnahme für unstrukturierte Formate. Das Recht auf Löschung nach Artikel 17 bedeutet, dass Sie die Daten einer Person auf Anfrage finden und löschen können müssen, was ehrlich schwer ist, wenn sie über Tausende nicht indexierte Dateien verstreut sind. Das deutsche Recht ergänzt GoBD-Aufbewahrungspflichten von sechs bis zehn Jahren für Geschäftskommunikation, Sie stehen also vor Lösch- und Aufbewahrungspflichten zugleich. Die einzig tragfähige Antwort ist, die unstrukturierten Daten durchsuchbar zu machen, um sie zu steuern.
Nein, und der Versuch ist meist ein Fehler. Ein moderner KI-Ansatz liest Ihre unstrukturierten Daten dort, wo sie schon liegen, in SharePoint, E-Mail, Dateiablagen und Ihrem ERP, über Konnektoren, statt zuerst eine riesige Migration zu erzwingen. Sie starten mit einer hochwertigen Quelle und einem Anwendungsfall, beweisen den Wert und fügen dann Quellen hinzu. Alles zu konsolidieren, bevor ein einziges Ergebnis vorliegt, ist der Weg, auf dem Wissensprojekte stecken bleiben. Beginnen Sie dort, wo es wehtut, nicht mit einem Jahr Datenklempnerei.
Den schnellsten Ertrag bringen Dokumenttypen, die häufig, repetitiv und derzeit von Hand bearbeitet werden: Eingangsrechnungen, Verträge, technische Zeichnungen, Serviceberichte und Kunden-E-Mails. Diese haben eine klare Vorher-Nachher-Kennzahl wie Zeit pro Dokument oder Fehlerquote, der Wert ist also leicht messbar. Starten Sie mit einem solchen Typ, bei dem eine falsche oder langsame Antwort teuer ist. Funktioniert es, erweitert sich dieselbe Pipeline auf den Rest Ihres unstrukturierten Bestands.
Nein, das Verhältnis ist für einen 150-Personen-Mittelständler dasselbe wie für einen Konzern: Das meiste, was Sie wissen, ist unstrukturiert. Kleinere Unternehmen spüren es eher schärfer, weil kritisches Wissen in wenigen Postfächern und Ordnern konzentriert ist. Die Technik, unstrukturierte Daten zu lesen, ist nicht mehr nur für Konzerne, ein fokussierter erster Anwendungsfall ist also bezahlbar. Die Hürde ist nicht die Größe, sondern die Entscheidung, die unsichtbare Mehrheit Ihres Wissens nutzbar zu machen.
Sie brauchen keine Data-Science-Abteilung, um zu beginnen. Wählen Sie einen Dokumenttyp, der Ihr Team echte Zeit kostet, binden Sie das System an, in dem er liegt, und legen Sie eine KI-Schicht darüber, die extrahiert, strukturiert und antwortet. Messen Sie die gesparte Zeit gegen eine Basislinie vor dem Start. Ein fokussierter Pilot auf einer Quelle zeigt meist innerhalb von Wochen Ergebnisse, genug, um die Erweiterung zu rechtfertigen. Der erste Schritt ist die Wahl des Anwendungsfalls, nicht das Einstellen eines Teams.
Quellen
- IDC / Box - 90 % Ihrer Daten sind unstrukturiert und voller ungenutztem Wert (IDC White Paper US51128223, 2023)
- Forcepoint - Gartner: 80 bis 90 Prozent der neuen Unternehmensdaten sind unstrukturiert (2024)
- IBM - Was sind Dark Data? (Gartner-Definition und Typen)
- Splunk / BusinessWire - The State of Dark Data: 55 % der Daten einer Organisation sind dunkel (Tim Tully), April 2019
- KDnuggets - Interview mit Doug Laney zu Big Data und Infonomics (prägte "Dark Data", 2012)
- IDC - The Digitization of the World From Edge to Core: Global Datasphere erreicht 175 ZB bis 2025 (David Reinsel), 2018
- IDC - Worldwide Global DataSphere Structured and Unstructured Data Forecast, 2024-2028 (Adam Wright), Sep. 2024
- Seagate / IDC - Rethink Data: Nur 32 % der verfügbaren Daten werden genutzt, 68 % bleiben ungenutzt (Dave Mosley), 2020
- Veritas - Global Databerg Report: 85 % der gespeicherten Daten sind Dark oder ROT (52 % Dark + 33 % ROT), März 2016
- McKinsey - Building the Foundations for Agentic AI at Scale (8 von 10 nennen Datenlimits als Hürde), 2025
- McKinsey - The State of AI 2025 (88 % der Organisationen nutzen KI in mindestens einer Funktion)
- IBM - Structured vs. Unstructured Data: Definitionen und Typen
- AWS - Der Unterschied zwischen strukturierten und unstrukturierten Daten
- Bitkom - Deutsche Unternehmen nutzen ihre Daten kaum: nur 6 % schöpfen ihr Datenpotenzial voll aus, 58 % nennen Datenschutz (Dr. Ralf Wintergerst), Juni 2024
- DSGVO - Artikel 17: Recht auf Löschung (Recht auf Vergessenwerden)
- secjur - Aufbewahrungsfristen nach GoBD und DSGVO: die Spannung zwischen Aufbewahrung und Löschung für deutsche Unternehmen
- Clive Humby - "Data Is the New Oil" (2006), via Wikipedia mit Verweis auf The Guardian
Bereit, die 80 % Ihrer Daten zu nutzen, die Sie bisher ignoriert haben?
Buchen Sie ein 30-Minuten-Gespräch mit Henri. Wir kartieren, wo Ihr unstrukturiertes Wissen sitzt, wählen die Quelle, die zuerst lesbar wird, und umreißen einen ersten Anwendungsfall - ohne Verpflichtung, ohne Verkaufsgespräch.
Demo buchen →
