Datenkompression

Als Datenkompression bezeichnet man Verfahren zur Reduktion des Speicherbedarfs von Daten oder der benötigten Bandbreite zum Übertragen der Daten durch Umkodieren des Quellcodes. Dabei wird die Datenmenge bei gleichbleibendem Informationsgehalt reduziert, indem die Signifikanz einzelner Zeichen erhöht bzw. die Entropie der Nachricht verringert wird.

Zu einem solchen Verfahren gehört eine Methode zur Reduktion der benötigten Speicherkapazität (Kompression) und der Wiederherstellung der Daten in ursprünglicher Form (Dekompression). Manchmal wird eine solche Datenkompression in der Nachrichtentechik auch als Quellenkodierung bezeichnet.

Informatik

Redundanz- und Irrelevanzreduktion

Die Datenkompression wird teils durch "günstigere Repräsentation", das heißt Vermeiden von Redundanz, teils durch Weglassen von Information erreicht. Wenn die Daten mit einem Dekompressionsverfahren wieder originalgetreu hergestellt werden, arbeitet es verlustfrei. Man spricht dann von Redundanzreduktion. Andernfalls ist es verlustbehaftet. In diesem Fall spricht man von Irrelevanzreduktion.

Bei der verlustfreien Kompression wird die originäre Information $I$ {\displaystyle I} in eine komprimierte Information $I'$ {\displaystyle I'} überführt. Diese Abbildung von $I$ {\displaystyle I} nach $I'$ {\displaystyle I'} ist eineindeutig, also eindeutig in beide Richtungen.

Die verlustbehaftete Komprimierung reduziert die Information. Es wird ein Modell zu Grunde gelegt, das entscheidet, welcher Anteil der Information für den Empfänger entbehrlich ist. Da eine solche Abbildung nicht mehr eindeutig ist, kann die ursprüngliche Information mittels Dekompression nicht mehr hergestellt werden.

Verfahren

Die theoretische Grundlage bildet die von Informationswissenschaftlern (Claude Shannon; Andrei Kolmogorow) erarbeitete Theorie der Information und Kommunikation (Informationstheorie). Diese beschreibt den Zusammenhang zwischen Informationsgehalt einer Zeichenkette auf der Basis von Zeichen durch den Begriff der Entropie der Zeichenkette, die im Allgemeinen auf eine bestimmte, minimale Länge gebracht werden kann.

Durch geeignete Kompressionsverfahren erreicht man gute Annäherungen an die Kanalkapazität.

In neuerer Zeit gibt es umgekehrt auch Ansätze, den Informationsgehalt auf die 'Nichtmehrverkürzbarkeit' zurückzuführen (Chaitin).

Einsatzgebiete

Speicherung von Text

Texte, sofern sie aus Buchstaben bestehen und nicht aus eingescannten Bildern, belegen wenig Speicherplatz. Eine Textdatei ohne Bilder ist selten größer als 10 MByte, die eine verlustfreie Kompression auf 1/5 bis 1/10 der Ursprungsgröße reduziert.

Beispiele:

Ausgangstext: AUCH EIN KLEINER BEITRAG IST EIN BEITRAG
 Kodiertext: AUCH EIN KLEINER BEITRAG IST -4 -3

Hier wurde erkannt, dass die Wörter EIN und BEITRAG zweimal auftauchen, und dadurch angegeben, dass diese mit den gerade zurückliegenden übereinstimmen. Bei genauerer Betrachtung könnte dann auch das EIN in KLEINER entsprechend kodiert werden.

Verwandt ist die tokenbasierte Kompression. Häufig wiederkehrende Schlüsselwörter werden durch Abkürzungen, den Tokens, ersetzt.

Ausgangstext: Print "Hallo"; Print "Hier"
 Kodiertext: 3F "Hallo"; 3F "Hier"

Verfahren der sog. Entropiekodierung:

Huffman-Code (in modifizierter Form zum Beispiel für die Fax-Übertragung)
Arithmetische Kodierung

Präcodierung

Präcodierung umfasst alle Techniken der Datenkompression, welche in Daten vorhandene statistiche Abhängigkeiten ausnutzen. Diese Techniken bilden Symbole aus einem Alphabet auf Symbole eines anderen Alphabets ab bzw. unterstützen diesen Prozess. Die Anzahl der Symbole kann sich dabei verändern (im Gegensatz z.B. zu Verfahren der Dekorrelation, welche ebenfalls Korrelationen im Signal auflösen).

Sehr verschiedene Algorithmen gehören zur Gruppe der Präcodierung: Lauflängencodierung, Phrasencodierung (besser bekannt als wörterbuchbasierte Codierung wie z.B. LZ77, LZ78 und LZW), Blocksortierung (auch bekannt als Burrows-Wheeler-Transformation), Quadtree-Codierung und andere.

Verfahren der sog. Präcodierung:

LZW (Lempel-Ziv-Welch), als Weiterentwicklung von LZ78 (Lempel-Ziv, 1978) und LZ77
RLE Lauflängenkodierung

Heutzutage stehen viele Datenkompressionsprogramme für den Rechnereinsatz zur Verfügung.

Speicherung von Bildern und Ton

Ton, Bild und Film sind Einsatzgebiete verlustbehafteter Kompression. Anders wären die oftmals enormen Datenmengen nicht zu handhaben. Bereits die Aufnahmegeräte begrenzen das Datenvolumen. Die Reduktion der gespeicherten Daten orientiert sich an den physiologischen Wahrnehmungseigenschaften des Menschen. Die Kompression durch Algorithmen bedient sich dabei typischerweise der Wandlung von Signalverläufen von Abtastsignalen in eine Frequenzdarstellung.

In der akustischen Wahrnehmung des Menschen werden Frequenzen oberhalb 20-25 kHz meist nicht mehr wahrgenommen und können bereits im Aufnahmesystem beschnitten werden, ebenso werden leise Nebentöne nur schwer wahrgenommen, so dass sie vom Kompressions-System entfernt werden können (siehe Psychoakkustik). Die Verfahren Ogg Vorbis oder MP3 reduzieren das Datenvolumen um Faktoren bis zu 50. Bei einem Faktor von 10 sind für den Menschen kaum noch Qualitätsunterschiede zum Ausgangsformat wie zum Beispiel PCM festzustellen. Eine CD von einer Stunde Laufzeit enthält etwa 600 MByte Daten für HiFi-Stereo Ton. In einem datenreduzierten Format benötigen diese Daten aber nur wenig mehr als 60 MByte. Mit anderen Worten, eine im MP3-Format bespielte CD kann bis zu 10 Stunden hochqualitative Musik speichern und das bei einer Datenrate von nur etwa 1 MByte/min was etwas mehr als 128 kbit/s entspricht. Verzichtet man auf Stereo und nimmt weitere Qualitätsreduzierung in Kauf, ist zum Beispiel bei 24 kbit/s schon Musikgenuss per Webradio oder Internet-Telefonie realisierbar.

In der optischen Wahrnehmung des Menschen werden Farben weniger stark aufgelöst als Helligkeitsänderungen, daraus leitet sich die schon beim analogen Farbfernsehen bekannte YUV-422 Reduzierung ab. Kanten sind dagegen bedeutsamer und es existiert eine biologische Kontrastanhebung (Machsche Streifen). Mit moderater Tiefpassfilterung zur Farbreduktion, zum Beispiel durch den auf DCT-Transformation basierenden JPEG-Algorithmus oder den neueren auf Wavelet-Transformation basierenden JPEG2000-Algorithmus, verringert sich das Datenvolumen schnell um mehr als 90%. Besteht man auf verlustfreier Kompression, so lassen sich fotografisch (oder vergleichbar) erstellte Bilder wegen ihres typischen Rauschanteils nur ungenügend komprimieren. Daher kommen verlustfreie digitale Kompressionsformate, wie etwas das TIFF-Format, fast nur in der professionellen Fotografie und Bild-Gestaltung zur Anwendung. Das GIF-Format arbeitet auch verlustfrei, begrenzt aber den Farbraum auf 256 Farben, so dass es eher für Zeichnungen oder für die Endergebnisse eines Verarbeitungsprozesses geeignet ist. Wegen seiner großen Reduktion findet es auf vielen Webseiten Verwendung, weil es hier oft auf schnelle Ladezeiten ankommt und das GIF-Format auch Animationen erlaubt.

Filme werden mit etwa 25 Bildern pro Sekunde aufgenommen. Da sich die Bilder nur beim Szenenwechsel deutlich ändern, beschränkt sich die Speicherung vornehmlich auf die Speicherung der Änderungen zwischen den Bildern. Es werden Formate wie MJPEG, MPEG sowie diverse andere Formate verwendet. Im Computersektor haben sich die Containerformate AVI (Microsoft) und MOV (Apple) etabliert, wobei der verwendete Codec nahezu frei wählbar ist, zum Beispiel von Intel die Indeo-Codierung, der Cinepak-Codec, der Sorenson-Codec oder in letzter Zeit die sehr weit verbreiteten Codecs XviD und DivX.

Kompressionsartefakte

Datei:Jpegartefakt.jpg

Bei stark komprimierten Bildern im JPEG Format zeichnen sich 8x8 Pixel große Quadrate als Kompressionsartefakte ab. Oben Originalgröße, unten Ausschnittsvergrößerung

Als Kompressionsartefakte bezeichnet man Signalstörungen, die durch die digitale, verlustbehaftete Datenreduktion verursacht werden.

Beispiele:

schnarrende Stimme beim Mobilfunkempfang
bei Bildkompression wie JPEG oder GIF:
- unscharfe Kanten (JPEG, JPEG2000)
- Unschärfe (JPEG, JPEG2000)
- Kästchenmusterbildung, auch Verblockung genannt (JPEG), siehe Bild rechts
- Ringing: ein kleine Fläche um einen Gegenstand mit hohem Kontrast, welcher deutlich aus der Umgebung heraussticht (JPEG, JPEG2000)
- Farbverfälschungen (JPEG, JPEG2000, GIF)
- Schwarz/Weiß-Konturen
- Farbkonturen
bei Audiokompression, wie MP3:
- Pre-echo: vor einem lauten plötzlichen Geräusch (zum Beispiel Schlagzeug) kann man einen leiseren Laut hören
- verwaschener Klang, insbesondere in Höhen und Tiefen, sowie bei bestimmten Instrumenten (Hi-hat)
- unpassende Lautstärkeänderungen
- Clipping: ein Klick-Geräusch
bei Videokompression, wie MPEG:
- Farbverfälschungen (zum Beispiel:Bleeding)
- Wabernder Hintergrund
- Ringing
- Unschärfe, insbesondere bei Kanten
- Kästchenmusterbildung, auch Verblockung genannt
- Schwarz/Weiß-Konturen
- Farbkonturen

Zeittafel der arithmetischen Kompressions-Algorithmen

1949 Informationstheorie, Claude Shannon

1949 Shannon-Fano-Entropiekodierung

1952 Huffman, static

1964 Kolmogorov complexity concept

1975 Integer coding scheme, Elias

1976 Arithmetic coding (Implementierung)

1977 Lempel-Ziv-Verfahren LZ77

1978 Lempel-Ziv-Verfahren LZ78

1982 Lempel-Ziv-Storer-Szymanski

1984 Lempel-Ziv-Welch-Algorithmus LZW

1985 Apostolico, Fraenkel, Fibonacci coding

1985 ARC-Programm (=LZW)

1986 PKARC-Programm (=LZW)

1986 Move-To-Front, (Bentley et.al., Ryabko)

1989 PKZIP-Programm (=LZ77+Huffman)

Bekannte Methoden

Bilder

Audio

Video

Biologie

Auch in der Biologie gibt es Kompressionsalgorithmen. So wird bei Eukaryonten die Information für Proteine nicht immer in einer zusammenhängenden DNA-Sequenz codiert. Durch ein System von Introns und Exons und die Verarbeitung der mRNA durch alternatives Splicing kann eine DNA-Sequenz die Information für mehrere unterschiedliche Eiweiße tragen. Der jeweilige Kompressionsalgorithmus wird dabei durch den Spleißvorgang und seine Regulation definiert.

Siehe auch

Weblinks

Projektarbeit Datenkompression von Martin Fiedler
Data Compression - Systematisation by T.Strutz (en)
Data compression FAQ (en)
Lelewer, Debra, A.; Hirschberg, Daniel, S.: "Data Compression"; ACM Computing Surveys, 19,3 (1987), 261-297, ausgezeichneter Übersichtsartikel (en)
maximumcompression.com Benchmarks und Tests

Abgerufen von „https://de.wikipedia.org/w/index.php?title=Datenkompression&oldid=6664359"