1) Einleitung
Ich bin weder ein Bewunderer noch ein Verächter der Big Data-Bewegung. Das merkt man schon an meinem Titel, in dem die Unterwelt des Bewusstseins herangezogen wird. Ich bin ein Spötter aus der „alten“ relationalen Zeit, der betrachtet, was sich da so in der letzten Dekade im Massendatengeschäft entwickelt hat. Und das ist aus erkenntnistheoretischer Sicht gewaltig. Diesen Satz kann man positiv wie negativ deuten. Das ist bei Spöttern so. Der Spott lebt u.a. auch von einer provozierenden Deutungsmöglichkeit. Aufklärer traten in der Vergangenheit häufig als Spötter auf. Sie wussten, dass man nur so Tatbestände eventuell an den Mann bringen kann. Voltaire war ein Vorbild. Auf jeden Fall: Wir erleben mit dem Neuen, philosophisch gesprochen, einen dialektischen Prozess, der spannend ist. Mir ist ziemlich klar, wie der Prozess in Synthese ausgehen wird. Und das will ich mitteilen.
Es ist beliebig leicht, Big Data zu produzieren, und Wikipedia führt uns das unter dem Stichwort „Big Data“ ausgiebig vor. Man kann es auch anders sehen, in dem man ins Kleine und Allerkleinste in unserem Leben marschiert und dabei Daten sammelt. Dieses Allerkleinste sind im geisteswissenschaftlichen Bereich die Qualia (Singular: Quale). Gemeint sind elementare Sinneseindrücke wie etwa Farb- oder Schmerzeindrücke, die wenn sie artikuliert werden, auch intersubjektiv zugänglich sind. Der Terminus „Qualia“ stammt von C.I. Lewis (Mind and the World Order, Ch. II: The Given Element in Experience, 1929) und ist zu deuten als „wie beschaffen ist etwas, welche Qualität hat es“. Kuno Lorenz hat in der Mittelstraßschen Enzyklopädie, Philosophie und Wissenschaftstheorie (EPW) einen langen, eindrucksvollen und lesenswerten Beitrag zum Thema „Qualia“ geschrieben. Qualia sind nach Lorenz erkennbare Charaktere des Gegebenen, die wiedererkennbar werden können. Wenn man den Beitrag liest, springt einem der Bezug zu Big Data sofort in die Augen. „Aus ihrer Präsenz folgt nicht ihre Intentionalität“ heißt es bei Kuno Lorenz. „Ich verspüre jetzt Rückenschmerzen“. Das ist eine Qualia, sogar intersubjektiv mitgeteilt, und auch spöttisch wie auch real als „Qual“ zu verstehen. Big Data kommt auf die Bühne, wenn eine Absicht, eine Intention erkennbar wird. In „Big Data Analytics“ (OLAP) wird die Absicht erkennbar, wenn die Frage (query) gestellt wird: „Wieviel Deutsche haben heute schon Rückenschmerzen verspürt?“. Die Intention in der Fragestellung, die Absicht könnte von der Schmerzmittel-Industrie oder, in wohlmeinender und wissenschaftlicher Absicht, von der medizinischen Statistik erzeugt worden sein. Big Data bekommen nur einen Sinn, wenn es auch eine Richtung gibt, in der gefragt werden kann. Sonst sind Big Data sinnlos oder richtungslos, was dasselbe ist. „Big Data needs Analytics“. Das weiß auch die NSA.
2) Big Data und der Schema-Agnostizismus
Big Data, das ist der Weg ins Kleine, aber auch, wie Jim Gray es uns mit seiner astronomischen Datenforschung eindrucksvoll vorgeführt hat, der Weg ins Große und Ganzgroße. Auffallend ist, dass die Big Data-Bewegung offensichtlich von einem Schema-Agnostizismus ausgeht. Was ist das? Man könnte auch im agnostischen Geiste den Gegner ans Licht zerren und behaupten, so etwas wie relationale Schemata brauchen wir nicht mehr, das ist Schnee von gestern. Es muss jetzt aber etwas weiter ausgeholt werden, weil der Begriff „Agnostizismus“ (wie auch der Begriff „Qualia“) tief in den Geisteswissenschaften verwurzelt ist. Vielleicht ist es genau das, was die „Digital Humanities“, die Digitalen Geisteswissenschaften in der digitalen Welt suchen und noch nicht gefunden haben?
Agnostizismus, so sagt die Mittelstaßsche Enzyklopädie (EPW), ist eine Sammelbezeichnung für religiöse und philosophische Lehren, die zwischen dem Atheismus, der Ungläubigkeit, und dem Theismus, der Gläubigkeit, steht. Atheismus als Negation und Theismus als Affirmation sind immerhin Kategorien der Gläubigkeit. Man glaubt oder man glaubt nicht. „Beim Agnostizismus, einer metaphysischen Stimmenthaltung, wird gefordert, dass er sich deutlich vom Atheismus (die erklärte Negation Gottes) unterscheidet“ heißt es bei H.R. Schlette „Der moderne Agnostizismus“, 1979. Das ist es eben. Agnostizismus hat mit „Glauben“ nichts zu tun. Ja womit dann? Ganz einfach die Antwort, wenn wir Kant in seiner Kritik der reinen Vernunft folgen. Agnostizismus behandelt eine Wissensfrage und keine Glaubensfrage. Und in Sachen „Wissen“ zeigt der Agnostizismus das große Fragezeichen auf. Er weiß es nicht. Friedrich Nietzsche sagte spöttisch: „Agnostizismus ist die Anbetung des Fragezeichens.“ Gehört die Big Data-Bewegung zu den Anbetern des Fragezeichens? Nietzsche war auch ein Spötter, ein ganz großer sogar.
Kant unterscheidet in seiner Kritik der reinen Vernunft bekanntlich sehr schön zwischen „meinen“, „glauben“ und „wissen“. Meinen ist ein subjektiv wie objektiv unzureichendes Fürwahrhalten. Glauben ist ein subjektiv zureichendes, aber objektiv unzureichendes Fürwahrhalten. Wissen ist ein subjektiv wie objektiv zureichendes Fürwahrhalten. Aus der agnostischen Position des Wissens ist ein Fragezeichen gerechtfertigt. Das ist typisch aufklärerisch, auch fragen, wenn man nicht antworten kann. Schema-Agnostizismus heißt also: Wir wissen es nicht, ob ein Schema gegeben ist oder nicht. Das ist aber ein beachtliches Zugeständnis, das wohlwollend zur Kenntnis genommen wird. Denn Relationalisten wissen um ein Schema als eine fundamentale Erkenntniskategorie, das immer paarweise mit einer Ausprägung gesehen werden muss. Wie soll ich denn die Buchstaben „A“ und „A“ als partikulare Ausprägungen (instances) eines a-Schemas verstehen, wenn ich das a-Schema für Großbuchstaben nicht kenne. Man sieht sofort: Ohne Schema, dem universellen Aspekt eines Gegenstandes, erkennen wir Partikularia, Instanzen oder Ausprägungen nur auf animalischem Niveau. Das ist hart, aber fair. Ein Esel kann beliebige Ausprägungen eines a-Schemas nicht als Ausprägungen ein und desselben Schemas erkennen, und verstehen sowieso nicht. Es sei denn, die Esel werden wie im Zirkus dressiert, man könnte auch programmiert sagen. Schema-agnostische Suchmaschinen sind nichts anderes als Esel im Zirkus oder auch Schnüffelhunde an Airports, die Rauschgift in Gepäckstücken ans Licht befördern sollen.
Statt Schema kann man in der Informatik auch Typ sagen. In den Programmiersprachen ist unser Phänomen uralt. „Strong-typed“ languages, das sind die theistischen Relationalisten im Spöttischen, untyped languages, das sind die Atheisten als ihre Gegenspieler, total schemafrei. In dem Bild sind dann die weak-typed languages, die mittendrin liegen, die Agnostiker. Denn so ein bisschen Schema haben die Agnostiker doch schon am Hut, wie wir gleich sehen werden. Man sieht aber: Typen oder Schemata sind eine Quälerei, weil sie den anstrengenden, universellen Aspekt eines Gegenstandes einfordern. Wenn man die Big Data-Literatur von heute liest, dann sind Schemata ein riesiger Ballast, der abgeworfen werden muss. Skeptisch könnte man natürlich auch fragen, ob man mir nicht etwas verkaufen will. Wirkliche Argumente und „sales argument“ sind häufig schwierig zu unterscheiden. Übrigens: „Strong-typed Languages“, wie z.B. alle objektorientierten Sprachen, mit agnostischer Absicht in die Vergangenheit zu schieben, ist ein Ding der Unmöglichkeit. Das wagt keiner. Schematisierung, man sagt auch Formalisierung, ist eine der Hauptaufgaben der Informatik. Das Wort „Schema“ (griech. σχῆμα) heißt ursprünglich auch „Form“. Schematisieren ist somit ein In-Form-bringen.
Qualia sind unmittelbar ohne Schema gegeben, was für das Thema „Big Data“ von Wichtigkeit ist. Schemata braucht es auch nicht, weil eine Darstellung ausschließlich durch die wahrnehmende Person (immediate awareness) möglich ist. Es ist ein Erleben, aus dem erst später durch Objektivierung ein Erkennen wird, auf das Kuno Lorenz besonders aufmerksam macht. Erst später mag es also zur Schematisierung kommen.
3) „Key /value“ als Schema eines Elementarsatzes
Der Mensch strebt immer danach, auch das Kleinste zu erkennen. Ob das nun im atomaren Bereich der Nanotechnik liegt, oder ob das Kleinste in den kleinsten Schmerz- oder Farbempfindungen der Subjektivität einer Qualia zu sehen ist; vom Konstruktiven her ist das ein löbliches Tun, weil konstruieren gedanklich immer mit dem Kleinsten anfängt (bottom-up), so auch z.B. bei den Maschinenelementen im Maschinenbau, die ein zentrales, umfangreiches Grundlagenfach sind. In der rationalen Linguistik spricht man seit langer Zeit (Wittgenstein) vom Elementarsatz als kleinster Einheit für eine Elementaraussage. Ein Elementarsatz besteht aus einem Nominator N, der einen Gegenstand benennt und von dem häufig Eindeutigkeit (uniqueness) verlangt wird. N ist ein schematischer Buchstabe, den wir aus der Schul-Arithmetik kennen, wenn wir (a+b)2 an die Tafel schrieben, mit a und b als schematische Buchstaben, von denen man allgemein sagt, sie seien fest, aber beliebig. Mit „beliebig“ meint man die zulässigen Ausprägungen innerhalb eines Typs (Schema). Nominatoren N sind Eigennamen (proper names) oder Kennzeichnungen (singular descriptions). Man muss, um zu einem aussagefähigen Satz zu kommen, den Nominator N mit einer Eigenschaft P verbinden. Die Verbindung nennt man Kopula (ε). Das Schema eines Elementarsatzes lautet : N ε P. Der Vorgang, der das leistet, heißt Prädikation. Man könnte N ε P auch als Relation hinschreiben: Relation (N, P). N heißt jetzt Primärschlüssel, P heißt relational nicht mehr Prädikator oder Eigenschaft (property), sondern Attribut. Das sind alles nur Worte. Gedanklich kann man eine Eigenschaft P erweitern und eine Konjunktion von Eigenschaften einführen: P =def P1 ∧ P2 ∧… ∧ Pn. Wenn man das tut, ist man nicht mehr elementar. Es liegt das „altertümliche“ Relationenmodell vor. Man tut es modern aber nicht, lässt P unstrukturiert und redet von value (V) (whatever it means). K ε V könnte man schreiben mit K als key. Man darf es nicht in der neuen Welt, weil die Kopula (ε), das Verbindungszeichen unbekannt ist. Ob von „Key“ oder „Nominator“ oder von „Value“ oder „Prädikator“ (Eigenschaft) gesprochen wird, ist gleichgültig. Das sind alles nur Worte, mit denen manchmal auch Politik gemacht wird, die sogn. Wortpolitik. Wichtig ist zu erkennen, dass ein allgemeines Elementar-Schema vorliegt. Wenn man beabsichtigt, kommunikativ zu reden, schreibt man (.) ε P mit (.) als Leerstelle oder einfach ε P, um mit δP eine bloße Wortdarstellung z.B. in einem Wörterbuch unterscheiden zu können. Das Fach „Big Data“ ist an Wörterbüchern, die auch riesig sein können, nicht interessiert. Man schaut auf den kommunikativen Aspekt „ε P“ und nicht auf den signifikativen Aspekt „δP“ im Sinne von „dieses P dort mit der vorgeschriebenen Bedeutung“. Auch das ist wichtig, für Big Data einschränkend herausgestellt zu werden.
4) Die „Unterwelt“ des Crawling
Schauen wir mit agnostischem Blick auf einen Elementarsatz N ε P und sehen nicht die mögliche Struktur von P, also P1 ∧ P2 ∧ P3 ∧ …. ∧ Pn, dann verbleibt nichts anderes, als beim Suchen in der Analytics alles von P1 bis Pn nach einem vorgegebenen Terminus abzusuchen, falls man an N irgendwie herankommt (zum Beispiel durch Hashing). Man kann dabei auch Suchhilfen wie Indizes nutzen und auch aufbauen. Das ist nicht wichtig, Hauptsache es geht schnell. Und dafür hat die „Computing Power“ und „Moore’s law“ zu sorgen. Wir kommen jetzt in die Welt der Web Crawler; und da wimmelt es für einen Spötter nur so von animalischem Ungeziefer wie Spinnen (spider) oder Ameisen (ants), die das Krabbeln (to crawl), in metaphorischer Sprache, also das Suchen übernehmen. Man erkennt sofort: Hier steht das Grobe und nicht das Fein-Ziselierte zur Debatte. Das Grobe hat aber eine wichtige Funktion, damit das Fein-Ziselierte auch leben und überleben kann.
Man kann es auch anders sehen, wie das im „information retrieval“ schon lange gemacht wird. Hier kennt man die „precision/recall-Diagramme“.
Eine Genauigkeit (precision) beim Suchen, erstrebenswert ist Genauigkeit = 1, wird einer Vollständigkeit (recall), erstrebenswert ist Vollständigkeit = 1, gegenübergestellt. Für als naiv empfundene relationale Systeme ist die Genauigkeit wie auch die Vollständigkeit immer = 1. Das wird in dieser Welt auch so verlangt. Wäre es anders, würde man in dieser Welt von Schlamperei sprechen.
5) Das Schisma im Bereich OLTP
Auch im Bereich des OLTP, des Transaktionalen ist ein Schisma zwischen klassischer und moderner Datenverarbeitung zu verzeichnen. Die Klassik besteht auf dem ACID-Prinzip. „Ohne ACID geht bei Geschäftsanwendungen gar nichts“ sagte Hasso Plattner (2013), seines Zeichens Aufsichtsratchef bei SAP, in einem Interview mit Albert Endres in Bertals Blog.
Der erfahrene Hasso Plattner, der muss es ja wissen. Die moderne Massendatenverarbeitung schiebt die große logische Errungenschaft ACID als nicht so bedeutend beiseite, ohne auf eine mögliche Konsistenzstufung von ACID einzugehen. Wenn wir unsere Zeit in Gedanken fassen wollen, müssen wir uns fragen, was ist da los? Dürfen die das? Philosophisch ist die Frage beantwortet, weil man hier zwischen einem Entdeckungszusammenhang und einem Begründungszusammenhang (context of discovery and context of justification) unterscheidet (Reichenbach 1938). Der moderne Massen-Datenverarbeiter ist auf Entdeckungstour nach Daten-Vorkommnissen (Ausprägungen, token, Instanzen, Aktualisierungen, wie immer man sie nennt), der Klassiker steht unter permanenten Begründungszwang, wobei Fragen der Logik und der Korrektheit eine ganz große Rolle spielen. Zum Thema „Entdeckungs- und Begründungszusammenhang“ siehe auch die vielen Google-Links. Noch besser ist die Darstellung im Mittelstraßschen Lexikon (EPW), das leider online nicht verfügbar ist. Man erkennt aber, dass beide Welten friedlich nebeneinander leben können, wenn sie wollen. Daneben liegen die Behauptungen, dass das Alte durch das Neue abzulösen sei. Da gibt es viel Getöse bei den Nouveaux Messieurs, die sich sehr interessant vorkommen.
Lieber Prof. Wedekind! Es Ist wirklich hervorragend,dass Sie solche Moeglichkeit bekamen,Ihre Idee hier zu besprechen.