Binary und UTF-8 in MySQL Tabellen speichern

Die MySQL-Speicherengine arbeitet bytesemantisch, d.h., sie speichert auch nur Oktetten (Bytes)

Optimierung und Design

Anzahl der Zeichen oder Anzahl der Bytes? Das ist auch beim DB Design die Frage wenn es darum geht, Speicherplätze zu optimieren. Wie später noch anhand konkreter Codebeispiele gezeigt wird, arbeitet die MyQL Speicherengine unabhängig vom für die Tabelle oder das Feld deklarierten Charset, beispielsweise Charset=Lain1. Das heißt, daß sie die zu speichernden Oktetten nicht verändert. Die Kodierung kommt nämlich nur dann ins Spiel, wenn eine bestimmte Collation gebraucht wird!

Wenn die Collation jedoch nicht benötigt wird sondern MySQL nur zum Speichern benutzt, ist die Deklaration einer bestimmten Zeichenkodierung zur Tabelle und deren Felder uninteressant. Ist jedoch ein Feld für ein bestimmtes Charset z.B. text varchar(255) charset latin1 not null default '' deklariert, ist der für die Bytes verfügbare Speicherplatz als Anzahl der Zeichen angegeben. So kann es passieren, daß der Platz für UTF-8 nicht ausreicht, weil in dieser Kodierung ein Zeichen ggf. mehrere Bytes belegt.

Beachte: Mit varchar(1) CHARACTER SET latin1 reserviert MySQL 1 Byte, mit UTF8 hingegen 3 Byte. Es gibt in MySQL weitere Charsets wie z.B. utf8mb4 was 4 Byte reserviert. Siehe also MySQL.

Wie mit der Deklaration einer zweckmäßigen Zeichenkodierung das eigene DB Design verbessert und optimiert werden kann, das ist das eigentliche Anliegen dieses Artikels. Das Verständnis der hier gezeigten Zusammenhänge ist unerläßlich für diejenigen die ihre Programme mit DB Anbindung optimal gestalten wollen.

Noch ein Fakt und ein Tipp

Wurde für eine ganze Tabelle ein bestimmtes Charset, zum Beispiel CHARSET=UTF8 deklariert, gilt das für alle Felder sofern diese im Einzelnen nicht anders deklariert sind. Wenn eine solche Tabelle indiziert wird, wächst natürlich auch die Datenmenge des Index auf ein Mehrfaches, was u.U. nicht erwünscht ist. Einem solchen Verhalten lässt sich abhelfen, indem die Schlüsselfelder für Latin1 deklariert werden:

Wobei es überhaupt zu überlegen gilt, für Schlüssel gleich welcher Verwendung (z.B. CODE intern), nicht-ASCII kodierte Strings zu verwenden: Eine Sache die einmal mehr dafür spricht, Schlüsselnamen von Inhalten zu trennen. Wenn ein Schlüssel verwendet werden soll, muß er in der gesamten Länge passen. Siehe also MySQL diesbezüglich.

Demo zur Bytesemantic

use Encode

Während die Collation einer DB für DB-interne Operationen mit Zeichenketten zuständig ist, kann das Core-Modul Encode für die Perlinterne Kodierung verhaftet werden. Das heißt, das der Programmierer selbst entscheiden kann, ob er Stringoperationen dem RDBMS überlässt oder ob er sich mit seinem Code selbst darum kümmert.

$dbh->{mysql_enable_utf8} = 1

Dieses Attribut kann beim Erstellen eines DBH (Data Base Handle) gesetzt werden. Es bewirkt, daß die Perlinterne Kodierung beim Transport über den DBH ausgeschaltet wird. Dieses Attribut macht nicht nur den Transport Layer transparent sondern bewirkt auch daß bei einem SELECT die Textstrings als kodierte Zeichenketten geliefert werden.

In untenstehendem Beispiel werden UTF-8-kodierte Kleinbuchstaben eingefügt in ein Feld was wie folgt deklariert wurde:

Mit dem SELECT Statement bekommt Perl eine in das interne Format utf-8-kodierte Zeichenkette. Auf diese Zeichenketten sind, weil der Interpreter die Kodierung kennt, Stringoperationen wie substr(), uc() und lc() erfolgreich anwendbar. Hiermit würde die Perlfunktion length() auch die Anzahl der Zeichen liefern und nicht die Anzahl der Oktetten.

Zur Ausgabe einer kodierten Zeichenkette auf STDOUT ist die interne Kodeirung jedoch wieder auszuschalten, was use bytes; in diesem Fall erledigt.

Und das Wichtigste

Eine Änderung der Zeichenkodierung in MySQL ändert nichts an den Inhalten, es sei denn daß sie infolge der Änderungen zwangsläufig gekürzt werden (siehe Feldtypen und ~Längen)! Abschließend noch ein Blick auf mein MySQL-Backend:

Datenschutzerklärung: Diese Seite dient rein privaten Zwecken. Auf den für diese Domäne installierten Seiten werden grundsätzlich keine personenbezogenen Daten erhoben. Das Loggen der Zugriffe mit Ihrer Remote Adresse erfolgt beim Provider soweit das technisch erforderlich ist. sos@rolfrost.de. Entity: cffde59768100eaa1a2d132c7236e99b