Warum ein Data Abstraction (Access) Layer

Viele Anwendungen benötigen persistente Daten und in vielen Fällen sind die Daten für namentlich benannte Einträge als Schlüssel-Werte-Paare definiert. Nennen wir einen namentlich benannten Eintrag address, so hätten wir beispielsweise eine Datenstruktur wie folgt:

Gut zu sehen, das Datenmodell ist nach dem Muster Entity, Attribute, Value (EAV) aufgebaut, Entity ist der Name des Eintrags, im Beispiel address. Eine solche Datenstruktur können wir auch als Objekt auffassen, ein Objekt nicht als Instanz einer Klasse sondern einfach nur als eine Ansammlung von Daten.

Nun können derartige Objekte verschiedene Attribute haben, sowohl namentlich als auch in deren Anzahl. Das Datenobjekt für den hier vorliegenden Artikel hat z.B. unter anderem die Attribute title, descr, body und der Name des Eintrags, Entity ist /dal.html.

Konventionell: Feldnamen gleich Eigenschaften

Herzstück ist ein sogenannter Hash-Slice. Bekanntlich ist ein Hash ein assoziatives Array, welches zu einem besimmten Schlüssel einen bestimmten Wert liefert. Ein Hash-Slice nun, liefert zu einer Liste von Schlüsseln eine Liste mit den dazugehörigen Werten in derselben Reihenfolge. Wichtig ist in diesem Zusammenhang, daß für fehlende Eigenschaften im Tabellenentwurf ein Default-Wert definiert ist:

So wird jeder gegebene Wert in das der Eigenschaft entsprechende (gleichnamige) Feld eingefügt. Über diesen Mechanismus lässt sich eine allgemeine Insertfunktion definieren:

Die Abstraktion vom Speicherort für persistente Daten

Definition Data-Abstraction-Layer: Der DAL vermittelt zwischen dem Speicherort und der darin abgelegten Datenstruktur.

In Perl ist die Datenstruktur ein gewöhnlicher Hash mit Schlüssel-Werte-Paaren für eine bestimmte Entity. Aus Perl-Sicht erfolgt der Zugriff auf die Daten nicht etwa über einen Zugriff auf eine Datei oder über ein SQL-Statement, vielmehr erfolgt der Zugriff über die vom DAL gelieferte Datenstruktur.

Beispiel zum Einbinden verschiedener DALs, untenstehender Code verdeutlicht die Abstraktion:

Der DAL stellt, nach der Bildung der Instanz in $dal, Methoden zur Verfügung für den Zugriff auf die Daten, Erstellen, Einfügen, Ändern, Speichern, Löschen, ein paar Beispiele untenstehend:

Allein diese Methoden, bzw. deren Anwendung, zeigen, dass im Programmcode keinerlei FileHandle oder DataBaseHandle zum Einsatz kommen müssen. Für Perl ist der DAL transparent, das heißt: Der Speicherort ist für das Programm uninteressant, es wird einfach nur auf die Daten zugegriffen und es werden Methoden angewandt.

Merke: Wenn die verschiedenen Layer allesamt die Methoden namentlich gleich zur Verfügung stellen, ist der DAL austauschbar mit einem Minimum an Programmieraufwand.

Vergleich der Datenspeicherung in Dateien oder MySQL

Natürlich gibt es Unterschiede, was die Performance, den RAM- und CPU-Bedarf betrifft. Der größte Overhead entsteht in dem Moment, wenn die Verbindung zu MySQL aufgebaut wird, dass kann in einer Webanwendung zu einer merklichen, jedoch nicht wesentlichen Verzögerung führen. Demgegenüber deutlich schneller ist das Erstellen eines DateiHandles. Eine Datei muss jedoch komplett deserialisiert werden, bevor die Datenstruktur im RAM zur Verfügung steht. Mit einem zweckmäßigen Serializer, kurzum als Richtwert: Das Einlesen einer Datei mit einer Größe bis zu 5MB einschließlich der Erstellung der Datenstruktur als Hash braucht auf einer heutigen Hardware weniger Zeit, als der Aufbau einer Verbindung zu MySQL.

Nachdem die Verbindung zu MySQL jedoch einmal aufgebaut ist, das DataBaseHandle liegt vor, ist der Zugriff auf die Daten sehr schnell, die Zeiten liegen im Millisekundenbereich, auch dann, wenn in einer Tabelle bspw. 4 Millionen Einträge vorliegen. Das Geheimnis für diese Performance ist die Wirksamkeit eines Index, der in der WHERE-Klause dem Feld entsprechend greift.

Im Folgenden beschreibe ich die Vorgehensweise zum Entwickeln eines einfachen Data-Abstraktion-Layer zum Speichern von Hashes nach dem EAV-Muster in MySQL. Auch hier werden die Daten nach einem bestimmten Algorithmus serialisiert, denn aufgrunddessen, dass die Namen der Attribute nicht vorhersehbar sind, ist es nicht möglich, den Attributen entsprechend gleichnamige Tabellenfelder anzulegen.

Die Tabelle für einen einfachen Data-Abstraction-Layer, den wir auch als ORM (Object Relational Mapping) bezeichnen können, hat lediglich drei Felder für Entity, Attribute, Value. Diese Tabelle ist nicht normalisiert, verfügt jedoch über einen Index, welcher für performante Abfragen sorgt. Sie ist so aufgebaut, dass sowohl UTF-8-Kodierte Zeichenketten als auch reine Binaries nebeneinander darin gespeichert werden können.

Entwicklung eines DAL für MySQL

Create Statement

Die Tabelle mit den drei Spalten ent, att, val (EAV) wird angelegt. Die Collation wird auf binary gesetzt, damit wird auch in den Schlüsseln zwischen Groß- und Kleinschreibung unterschieden. So ist beispielsweise eine ent = 'ADDR' neben ent = 'addr' möglich, das sind also unterschiedliche Einträge. Dasselbe Verhalten gilt sinngemäß auch für die anderen beiden Datenfelder.

Die festgelegte Collation passt zur Zeichenkodierung UTF-8. Perl kann damit vollständig zeichenorientiert mit der Datenbank kommunizieren und z.B. die MySQL-Funktionen UPPER(), LOWER() nutzen. Sofern Perl jedoch nur byteorientiert mit der Datenbank kommuniziert, ist es auch möglich, reine Binaries in das Textfeld einzufügen (GIF, JPEG, PDF...).

Constructor

Der Konstruktor erstellt die Instanz der Klasse, dabei wird die Verbindung zur DB hergestellt und der Name der Tabelle wird MySQL-gerecht maskiert. RaiseError wird auf 1 gesetzt, damit werden alle möglichen Fehler in den Status einer Exception erhoben. Das hat den Vorteil einer relativen Code-Vereinfachung, es erübrigen sich explizite Abfragen, ob etwa ein Statement fehlgeschlagen ist und es müssen keine Texte für eigene Fehlermeldungen erstellt werden.

Public Methods

Die Methoden arbeiten mit Prepared Statements. Das jeweilige Statement wird beim ersten Aufruf der jeweiligen Methode erstellt und als Attribut im der Instanz gespeichert. Das erhöht die Performance bei mehreren aufeinanderfolgenden Methodenaufrufen und die übergebenen Argumente werden MySQL-gerecht maskiert, so dass SQL-Injektionen nicht möglich sind.

Object Relational Mapping

Die EAV-Tabelle ist nicht normalisiert denn das ist nicht das eigentliche Ziel eines DAL, was darin besteht, namentlich benannte Datenobjekte (Entity) mit beliebigen Attributen in beliebiger Anzahl persistent zu machen. Wobei: Die Struktur der Datenobjekte wird einzig und allein vom Programmcode bestimmt.

Dennoch ist es möglich, die Mächtigkeit von MySQL für gezielte Abfragen zu nutzen, nämlich dann, wenn alle Datenobjekte stets dieselbe Struktur, sprich, dieselben Attribute haben. Als Beispiel die Attribute name, vname, ort, parent sozusagen als Quasi-Datenfelder. Betrachte untenstehendes SQL-Statement:

Über SELF-JOINs wird eine Relation rekonstruiert und obenstehende Abfrage liefert ein auf Felder ausgerichtetes Ergebnis, wenn die in der Tabelle enthaltenen Objekte die Attribute name, vname, ort, parent besitzen und diese mit Werten bestückt sind.

Der SELF-JOIN ist einfach zu verstehen, die Tabelle wird sooft mit sich selbst gejoint, wie Quasi-Felder auf Attribute gemappt werden. Quasi-Felder sind name, vname, ort. Das Quasi(WHERE parent = 'foo') wird erzeugt durch zwei Bedingungen in WHERE, oben gekennzeichnet. Als Beschleuniger für die Abfrage dienen die Indizies KEY ent(ent), KEY att(att). Dass diese Keys greifen, zeigt ein dem Statement vorangestelltes explain.

id	select_type	table	type	possible_keys	key	key_len	ref	rows	Extra
1	SIMPLE	a	ref	PRIMARY,ent,att	att	386	const	1	Using where
1	SIMPLE	name	eq_ref	PRIMARY,ent,att	PRIMARY	772	myweb.a.ent,const	1	Using where
1	SIMPLE	vname	eq_ref	PRIMARY,ent,att	PRIMARY	772	myweb.a.ent,const	1	Using where
1	SIMPLE	ort	eq_ref	PRIMARY,ent,att	PRIMARY	772	myweb.vname.ent,const	1	Using where

Die EAV-Tabelle für diese Abfrage hat 8_719_848 Einträge, das sind fast 9 Millionen Zeilen, die Ergebnismenge jedoch hat nur 4 Zeilen, siehe Spalte rows.

Erweiteren wir unseren DAL um die folgende Methode, welche den JOIN zusammenbaut:

Bei diesem Statement wird der Index genutzt und damit ist die Abfrage auch performant. ORM bedeutet in diesem Fall: Das Mapping beschreibt eine Transformation, aus Attributen werden Datenfelder und umgekehrt.

Data Abstraction Layer in der Praxis

Anwendungen sind mit einem solchen DAL schnell entwickelt. Die Datenfelder werden einzig und allein vom Programmcode bestimmt, in den verlinkten Beispielen sind die Atribute (Datenfelder) mit JavaScript festgelegt.

Datenschutzerklärung: Diese Seite dient rein privaten Zwecken. Auf den für diese Domäne installierten Seiten werden grundsätzlich keine personenbezogenen Daten erhoben. Das Loggen der Zugriffe mit Ihrer Remote Adresse erfolgt beim Provider soweit das technisch erforderlich ist. sos@rolfrost.de. Entity: 55b8a1b82792c27a59406110df977ea8