Path to this page: TAK »

TAK

Merkmale
Links zu TAK
Audiokompression
Anwendungsgebiete verlustfreier Audiokompression
Funktionsprinzip
Asymmetrische vs. symmetrische Kompressoren
TAK's Technologie
Zukunft
Entwicklungsgeschichte
Links zu anderen Audiokompressoren

steht f?r (T)om's verlustfreier (A)udio(k)ompressor. Nebenbei ist es eine Reminiszenz an eine (nicht sehr menschenfreundliche) Figur aus Stephen King's "Regulators". Fr?he halb?ffentliche Evaluationsversionen firmierten unter dem Arbeitstitel YALAC.

Merkmale

Hohe Kompression. Der stärkste Modus ist im Mittel Monkey's Audio High und OptimFrog's Normal ebenb?rtig; bei spezifischen Dateien wie z.B. klassicher Musik oder Sprachaufnahmen ?bertrifft er häufig beide. Diese Klassifizierung basiert auf der Evaluation hunderter von Dateien unterschiedlichster Stilrichtungen; sie trifft definitiv nicht auf jede einzelne Datei zu.
Hohe Kompressionsgeschwindigkeit. Gegenwärtig ist mir kein anderer Kompressor bekannt, der schneller als TAK's Turbo oder Fast Modus arbeitet und dabei ähnliche Kompressionsraten erzielt.
Multi-Core-Kompressor. Der Kompressor erzeugt optional bis zu vier Threads, um Nutzen aus Multi-Core-Cpus zu ziehen.
Sehr hohe Dekompressionsgeschwindigkeit. Sie liegt auf dem Niveau von FLAC und damit deutlich h?her als bei den meisten symmetrischen Kompressoren.
Unterst?tzung f?r jedes gängige Audioformat (noch nicht vollständig implementiert).
Unterst?tzung f?r Streaming. Ein Info-Frame, der alle f?r die Dekodierung erforderlichen Informationen enthält, wird alle 2 Sekunden in die komprimierten Audiodaten eingef?gt.
Fehlertoleranz. Ein einzelner Bitfehler beschädigt nie mehr als maximal 250 ms der Audiodaten, da diese in vollständig unabhängigen Frames von maximal dieser Dauer gespeichert werden. Der Dekodierer verarbeitet selbst extrem beschädigte Dateien, wobei die betroffenen Daten optional durch Stille ersetzt oder entfern werden.
Fehlererkennung. Jeder einzelne Frame wird durch eine 24-bit Pr?fsumme (CRC) gesch?tzt.
MD5-Pr?fsummen zur schnellen Identifikation von Audiomaterial (Z.B. f?r die Suche nach Doubletten).
Schneller samplegenauer Zugriff auf beliebige Wiedergabepositionen. Der Dateiheader enthält eine Suchtabelle mit Indexpositionen im Abstand von einer Sekunde. Auch ohne diese Tabelle werden effiziente wahlfreie Zugriffe erm?glicht; dazu k?nnen die Synchronisationscodes der Frameheader und/oder die optional im Frameheader aufgenommenen Offsetwerte verwendet werden, die auf den Anfang des vorhergehenden und nächsten Frames verweisen.
Metadaten. Eine flexible und erweiterbare Struktur erlaubt die Aufnahme von nicht-Audiodaten wie z.B. Bildern oder Cuesheets.
Aktuell sind Wiedergabe-Plugins f?r Winamp und Foobar verf?gbar.
Ein SDK stellt anderen Entwicklern Dekodierungsfunktionen zur Einbindung in ihre Applikationen zur Verf?gung. Eine Erweiterung um Kodierungsfunktionen ist geplant.

Links zu TAK

Download

Das folgende ZIP-Archiv enthält die aktuelle Version TAK 2.3.3 incl. Zubeh?r (Winamp plugin, SDK usw.):

TAK_2.3.3 Final Gr??e: 1.77 MB

Applikationen mit TAK-Unterst?tzung

caudec - Multiprozess Transcoder

dsfTAKSource - TAK DirectShow Source Filter

Plugin f?r die Wiedergabe in jedem Media Player, der DirectShow unterst?tzt (z.B. Windows Media Player, MediaPlayerClassic, ?).

Exact Audio Copy (EAC) - Audio grabber

Kann die Audiodaten im TAK-Format speichern. Die folgenden Anleitungen zeigen, wie es geht: EAC and TAK auf Hydrogenaudio.org und EAC+TAK encoder+foobar2000 auf hqshare.net.

Foobar2000 - Audioplayer

Enkodierung, Dekodierung, Tagging und Wiedergabe. Die folgenden Anleitungen zeigen, wie es geht: TAK Wiki auf hydrogenaudio.org sowie EAC+TAK encoder+foobar2000 auf hqshare.net. Das ben?tigte Wiedergabeplugin gibt es hier: TAK Decoder 0.4.7

GermaniX Transcoder - Transcoder

ImgBurn - Images brennen

Mp3tag - Tag Editor

Quintessential Player - Media Player

Wiedergabe von TAK-Dateien. Das ben?tigte Plugin gibt es hier.

shntool - Verarbeitung und Analyse von (komprimierten) WAVE-Audiodateien

Winamp - Media Player

Wiedergabe von TAK-Dateien. Ben?tigt mein Winamp-Plugin (s. Download).

XMPlay - Audio Player

Wiedergabe von TAK-Dateien. Ben?tigt mein Winamp-Plugin (s. Download).

xrecode II - Transcoder

Informationen und Support

Ich bin regelmäßig im Forum "Lossless / Other Codecs" auf Hydrogenaudio aktiv. Dies ist derzeit der beste Ort um Unterst?tzung zu bekommen, Verbesserungsvorschäge zu machen oder Fehler zu berichten.

Vergleichstests

ktf's Vergleichstest. Nach meiner Ansicht aktuell der aussagekräftigste Test.

"Comparisons" auf der offiziellen FLAC-Homepage. Zitiert ktf's Test (s.o.).

Squeeze Chart - Audio

Audiokompression

Audiokompressoren (nicht zu verwechseln mit Dynamikkompressoren!) werden eingesetzt, um den Platzbedarf von Audiodateien (z.B. Musik) zu reduzieren. Durch den Vorgang der Kompression bzw. Kodierung wird eine m?glichst kompakte Repräsentation der Daten erzeugt und in eine Datei geschrieben. Das Gegenst?ck stellt die Dekomprimierung bzw. Dekodierung dar, die die komprimierten Daten wieder in eine Form zur?ckverwandelt, die zur Wiedergabe oder Weiterverarbeitung in Audiosoftware geeignet ist.

Verlustfrei vs. verlustbehaftet

TAK geh?rt zur Famile der verlustfreien Audiokompressoren wie auch z.B. Flac, WavPack, Monkey's Audio usw. Im Gegensatz zu verlustbehafteten Audiokompressionsverfahren wie z.B. MP3 erlauben sie eine originalgetreue Wiederherstellung der Originaldatei aus den komprimierten Daten. Dabei entstehen keinerlei Verluste; das Ergebnis stellt eine bitgenaue Kopie des Originals dar. Verlustfreie Audiokompressoren verhalten sich also ähnlich wie die bekannten ZIP-Pack-Programme, die ja in der Lage sind, ihnen anvertraute Daten wie z.B. Texte unverfälscht zu reproduzieren.

Verlustbehaftete Audiokompressoren dagegen entfernen unwiederbringlich Bestandteile des ursp?nglichen Audiosignals, die von Menschen mit normalem H?rverm?gen ?blicherweise nicht wahrgenommen werden. Das Originalsignal kann also nicht wiederhergestellt werden.

Daf?r erzielen verlustbehaftete Audiokompressoren deutlich h?here Kompressionsraten, erzeugen also deutlich kleinere Dateien als verlustfreie Kompressoren. Eine MP3-Datei, die mit der gängigen konstanten Bitrate von 128 KBit komprimiert wurde, ist um etwa den Faktor 11 kleiner als die Originaldatei im CD-Audio Format. Verlustfreie Kompressoren erzielen dagegen im Schnitt nur eine Reduktion um den Faktor 2. (Tatsächlich schwankt der Kompressionsfaktor in Abhängigkeit vom Audiomaterial: So lassen sich z.B. leisere Audiosignale leichter komprimieren als laute).

Anwendungsgebiete verlustfreier Audiokompression

Während der Umgang mit verlustbehafteten Audiokompressionsverfahren wie MP3 heutzutage f?r die meisten Musikliebhaber und Computernutzer alltäglich ist, fristen verlustfreie Verfahren bislang eher ein Nischendasein. Nichtdestotrotz sind sie den verlustbehafteten Verfahren in vielen Fällen ?berlegen oder k?nnen sie hervorragend ergänzen, z.B.:

Musikproduktion

Bei der Musikproduktion durchläuft das Originalsignal meist eine Vielzahl von Bearbeitungsschritten. Sollen Zwischenergebnisse zunächst gespeichert und später weiterverarbeitet werden, sind Verluste gänzlich inakzeptabel, da die Verluste aller Speichervorgänge kumulieren und schnell zu h?rbaren Verfälschungen f?hren. Ferner werden Signalveränderungen der verlustbehafteten Kompression, die normalerweise nicht h?rbar sind, durch die ?blichen Klangmanipulationen der Produktion schnell ?ber die Wahrnehmungsgrenze gehoben.

Archivierung

Bei der Archivierung privater Musikbestände mag eine verlustbehaftete Kompression in einem Format, das f?r den Anwender keine h?rbaren Artefakte erzeugt, zunächst ausreichend erscheinen. Soll aber später ein Wechsel zu einem anderen verlustbehafteten Format durchgef?hrt werden (z.B. um Kompatibilität zu neueren Wiedergabegeräten herzustellen), besteht die Gefahr, da? die Kumulation der Signalverfälschungen des urspr?nglichen sowie des neuen Kompressionsverfahrens eben doch zu h?rbaren Artefakten f?hrt.

Garantierte Klangqualität

Trotz aller beeindruckenden Fortschritte der verlustbehafteten Kompressionsverfahren lassen sich fast immer Musikst?cke finden, die zu h?rbaren Artefakten f?hren. Derzeit k?nnen nur verlustfreie Verfahren eine unverfälschte Klangqualität garantieren.

Funktionsprinzip

Prädiktion

Um eine kompaktere Repräsentation -also Kompression- der Daten zu erreichen, suchen alle verlustfreien Audiokompressoren nach Regelmäßigkeiten im Audiosignal. So besteht zumeist eine starke Abhängigkeit zwischen aufeinanderfolgenden Signalwerten, so da? nachfolgende Werte aus den vorangegangenen vorhergesagt werden k?nnen. Dazu m?ssen einige geeignete Parameter berechnet werden, die die Art der Abhängigkeit m?glichst gut beschreiben. Diese k?nnen dann zur Vorhersage bzw. Prädiktion eingesetzt werden. Anstelle der Originaldaten speichert der Kodierer dann die Differenzen zwischen der Vorhersage und dem Originalsignal, also den Prädiktionsfehler. Da die Differenzen bei einer guten Prädiktion viel kleiner sind als die Originalwerte und da kleinere Werte weniger Speicherplatz ben?tigen, erzielt man eine Kompression.

Im Dekodierer wird dieselbe Prädiktion vorgenommen, wobei der vom Kodierer gespeicherte Prädiktionsfehler zu den vorhergesagten Werten addiert wird, um die Originalwerte zur?ckzuerhalten.

Die Berechnung der otpimalen Parameter f?r die Prädiktion ist der zeitaufwendigste Vorgang der Kompression.

Adaption

Prädiktionsparameter m?ssen zu dem Signal passen, f?r dessen Vorhersage sie eingesetzt werden sollen. Verändern sich entscheidende Aspekte des Audiosignals, mu? eine Neuberechnung bzw. Adaption der Prädiktionsparameter durchgef?hrt werden.

Asymmetrische vs. symmetrische Kompressoren

TAK basiert im wesentlichen auf adaptiver linearer Vorwärts-Prädiktion. Dieselbe Technik wird z.B. von FLAC, LPAC, Mpeg4Als (in der Standardeinstellung) und Shorten verwendet.

Alle genannten Programme geh?ren zur Klasse der asymmetrischen Audiokompressoren. Die Asymmetrie bezieht sich auf den unterschiedlichen Rechenaufwand f?r den Vorgang der Kodierung und Dekodierung.

Alle f?r die Kompression relevanten Parameter (vor allem die der Prädiktion) werden einmalig während der Kodierung berechnet und in der komprimierten Datei gespeichert. Der Dekodierer liest diese Parameter einfach aus der Datei, braucht die entsprechenden Berechnungen also nicht zu wiederholen und kann so sehr hohe Geschwindigkeiten erzielen. Ferner ist es m?glich, den Rechenaufwand im Kodierer zu erh?hen, um bessere Parameter f?r eine stärkere Kompression zu erhalten, ohne da? dies den Rechenaufwand im Dekodierer signifikant steigern w?rde. In der Folge sinkt die Verarbeitungsgeschwindigkeit des Kodierers, während die des Dekodierers konstant (hoch) bleibt.

Bei symmetrischen Verfahren (eingesetzt z.B. in WavPack, Monkey's Audio, OptimFrog, LA) dagegen werden die Berechnungen der Kompressionsparameter sowohl im Kodierer als auch im Dekodierer durchgef?hrt, soda? auf beiden Seiten ungefähr derselbe Rechenaufwand entsteht. Wird der Rechenaufwand im Enkodierer erh?ht, um die Kompressionsleistung zu verbessern, steigt der Rechenaufwand im Dekodierer gleicherma?en.

Aber symmetrische Verfahren bieten auch Vorteile. Sie verwenden in der Regel die sogenannte R?ckwärtsprädiktion, die die Kompressionsparameter kontinuierlich aufgrund des vorangegangenen Signals berechnet. Da dies gleicherma?en im Kodierer wie im Dekodierer geschieht, brauchen die Kompressionsparameter nicht gespeichert werden, was Platz spart und die Kompressionsrate erh?ht. Und da die Parameter nicht gespeichert werden m?ssen, k?nnen sie beliebig oft bzw. schnell an Veränderungen des Audiosignal angepa?t werden, was die Kompressionsrate weiter erh?ht. Symmetrische Verfahren mit Vorwärts-Prädiktion dagegen k?nnen diese Adaption nur in gr??eren Intervallen vornehmen, da andernfalls der Speicherbedarf f?r die häufiger aktualisierten Kompressionsparameter den Gewinn der schnellen Anpassung ?bersteigen w?rde.

Anmerkung: Auf die M?glichkeit, beide Verfahren zu kombinieren, soll an dieser Stelle nicht eingegangen werden.

Leistungsvergleich der Verfahren

Vergleichstests der Leistung aktuell gängiger verlustfreier Kompressionsprogramme bestätigen im gro?en und ganzen die Vorhersagen, die sich aus den unterschiedlichen Funktionsprinzipien ergeben: Asymmetrische Verfahren dekodieren deutlich schneller, während symmetrische Verfahren die h?chsten Kompressionsraten erzielen k?nnen, wenn auch auf Kosten der Dekodiergeschwindigkeit.

TAK's Technologie

Kompressor

Bei der Entwicklung von TAK standen diese Anforderungen in Vordergrund:

Hohe Verarbeitungsgeschwindigkeit.
Niedrige Hardwareanforderungen vor allem des Dekodierers.
Verzicht auf m?glicherweise patentierte Technologien.

Das gesamte Design wurde auf hohe Geschwindigkeit ausgerichtet und unterscheidet sich in einigen Punkten deutlich von dem anderer asymmetrischer Kompressoren.

Einige Merkmale:

TAK basiert im wesentlichen auf adaptiver linearer Vorwärts-Prädiktion unter Einsatz von bis zu 160 Prädiktorkoeffizienten.
Die Prädiktorkoeffizienten werden mittels eines sehr schnellen Verfahrens komprimiert, das vergleichbare Kompressionsraten wie die Repräsentation in Form von Parcor-Koeffizienten erreicht, aber im Dekodierer ohne aufwendige 64-Bit Berechnungen auskommt, die f?r die R?cktransformation der Parcorkoeffizienten erforderlich sind.
Dem linearen Prädiktionsfilter k?nnen zwei weitere Filter vorgeschaltet werden, die meist zu einer deutlichen Effizienzsteigerung f?hren.
TAK verwendet f?r die Samplewerte ?berwiegend eine reduzierte Darstellungsgenauigkeit von 14 Bit. So kann der Dekodierer nahezu vollständig mittels 16-Bit Arithmetik und einem 32-Bit Akkumulator implementiert werden.
Die Audiodaten werden grundsätzlich in vollständig unabhängige Frames gleicher Gr??e unterteilt, die per Voreinstellung aus dem Bereich von 94 bis 250 ms gewählt werden kann. Unabhängige kleine Frames bieten u.a. den Vorteil, da? die destruktive Wirkung einzelner Datenfehler auf kurze Abschnitte der Audiodaten beschränkt wird.
Ein sehr schnelles Verfahren unterteilt jeden Frame in derzeit bis zu 5 SubFrames variabler Gr??e, um eine blockweise Anpassung an Veränderungen der Signalcharkteristik innerhalb eines Frames zu erm?glichen.
Zur Stereodekorrelation steht neben den ?blichen Verfahren der Mitte-Seite-Kodierung eine sehr einfache und schnelle Prädiktionsmethode zur Verf?gung.
Die finale Kodierung der Prädiktionsfehler erfolgt mittels eines Verfahrens, das sich am ehesten als eine Mischung aus Huffman- und Rice-Kodierung beschreiben läßt. Es ist deutlich effizienter als die vergleichsweise simple Rice-Kodierung, aber nahezu genauso schnell.
Eine Vielzahl kleinerer Verbesserungen von Standardmethoden, die in der Summe eine sp?rbare Steigerung der Kompressionseffizienz ergeben.

Containerformat

Die vom Enkodierer erzeugten komprimierten Frames werden in ein eigenes, proprietäres Containerformat verpackt, das folgende Merkmale aufweist:

Einfachheit, um anderen Entwicklern einen schnellen Einstig zu erm?glichen.
Kompaktheit, um eine signifikante Reduktion der Kompressionsrate zu verhindern.
Streamingfähigkeit.
Schneller Zugriff auf beliebige Wiedergabepositionen.
Kontrolle der Datenintegrität mittels CRC's.
Hohe Fehlertoleranz.
Einbettung von Metadaten.

Zukunft

Meine To-Do-Liste

geplanter Erweiterungen:

Unterst?tzung f?r Unicode-Zeichensätze.
Eine deutschsprachige Version.
Noch ein bi?chen mehr Geschwindigkeit und Kompressionseffizienz...
Anwendungen f?r andere Plattformen als Windows.
Unterst?tzung f?r mehr als 6 Audiokanäle.

Die Position in der Liste wird durch wenistens zwei Faktoren bestimmt: die Priorität, die eine Erweiterung f?r mich (und die Anwender) hat, sowie durch den erforderlichen Aufwand. So messe ich der Unterst?tzung f?r andere Plattformen eigentlich eine recht hohe Bedeutung zu, habe sie aber aufgrund des beträchtlichen Aufwandes zunächst zur?ckgestellt.

Entwicklungsgeschichte

Meine ersten Gehversuche im Bereich (verlustbehafteter) Audiokompression erfolgten bereits 1994. Ich erfoschte eine Reihe eher simpler Verfahren, die zunächst mehr oder weniger auf ADPCM (Adaptive Delta Pulse Code Modulation) basierten und von mir zur Kompression von Sprachaufnahmen eingesetzt wurden.

Etwa 1996 wandte ich mich der verlustfreien Audiokompression mittels linearer Prädiktion zu. Da ich kaum Ahnung von den Standardverfahren der digitalen Signalverarbeitung hatte, nutzte ich zunächst eine (laaangsame) multiple Regression zur Bestimmung der Pädiktionskoeffizienten.

1997 brachte mir einen Internetzugang und es dauerte nicht lange, bis ich auf den Audiokompressor Shorten stie?. Auch wenn Shorten aus heutiger Sicht nicht mehr konkurrenzfähig ist, sollte seine Bedeutung f?r die Entwicklung der Audiokompression keinesfalls unterschätzt werden. Zum einen war es der erste Quasi-Standard f?r den Austauch verlustfrei komprimierter Audiodateien via Internet, zum anderen haben sein Quellcode und die ausf?hrliche Dokumentation der eingesetzten Verfahren sicher vielen Entwicklern anderer Kompressoren als Einstig und Anregung gedient. Mir jedenfalls zeigte es ein schnelleres Verfahren zur Berechnung der Prädiktionskoeffizienten, nämlich den Levinson-Durbin-Algorithmus.

Mein anfängliche Euphorie dar?ber, wie leicht es mir fiel, mittels meiner Verfahren deutlich bessere Kompressionsergebnisse als Shorten zu erzielen, war dahin, als ich auf Monkey's Audio stie?. Es war meinem damaligen Entwicklungsstand in jeder Hinsicht ?berlegen: Es komprimierte nicht nur besser sondern dazu auch noch mit h?herer Geschwindigkeit! In den Folgejahren konzentrierte sich meine Entwicklungsarbeit darauf, diesen Vorsprung aufzuholen.

Ende März 2006 war -salopp gesagt- "die Luft raus". Ich hatte meine Ziele erreicht und sah keine M?glichkeit mehr, aus meinem Design deutliche Verbesserungen herauszuarbeiten. Da ich mir nicht sicher war, was ich nun sinnvolles mit dem Ergebnis meiner Arbeit anstellen sollte, fragte ich meine potentielle Zielgruppe im renomierten Audioforum hydrogenaudio.org: Yet another lossless audio compressor: Braucht die Welt ein weiteres verlustfreies Audiokompressionsverfahren?

Dieser Post brachte einiges an Dynamik in die weitere Entwicklungsgeschichte. Zunächst versorgte mich die ?berwiegend positive Resonanz auf die von mir ver?ffentlichten Daten zur Kompressionsleistung mit neuer Motivation. Weiterer Antrieb erwuchs aus meinem ausgesprochen schlechten Timing: Wer als Neuling ausgerechnet am 1. April ?berraschend gute Ergebnisse seines unver?ffentlichten Programmes postet, darf sich nicht beklagen, wenn ihm die Hälfte der Leser nicht glaubt...

Da ich mich nun in Beweisnot sah, entwickelte ich innerhalb weniger Tage einen funktionsfähigen Prototypen (YALAC V0.01) und schickte ihn an einen kleinen Kreis interessierter Tester aus den Reihen der Forumsmitglieder.

Versehen mit neuer Motivation und mit teilweise unglaublich umfangreicher Unterst?tzung der Tester verbrachte ich die folgenden Monate mit Verbesserungen der Kompressionsleistung und vor allem der Geschwindigkeit (es war doch noch einiges rauszukitzeln...). Die Optimierungen wurden bis zur Version V0.10 fortgesetzt. Danach begann die Arbeit am Streaming-Support, der Finalisierung des Dateiformates sowie an der Verbesserung der Anwenderfreundlichkeit.

Die erste finale Version 1.0 wurde am 26.1.07 ver?ffentlicht.

Links zu anderen Audiokompressoren