Benutzer Diskussion:Umherirrender
Willkommen auf meiner Diskussionsseite.
Falls du Fragen oder Anregungen/Kritik hast, dann hinterlasse mir eine Nachricht .
CMYK-Dateien finden
Du scheinst dich auszukennen: Ist es möglich JPG-Bilder zu erkennen, die nicht RGB-kodiert sind? Die kann der IE nicht anzeigen, es gibt immer nur den Platzhalter. Heute zufällig wieder eins entdeckt: Datei:Logo Charte.jpg. Gruss --Nightflyer 21:04, 17. Dez. 2011 (CET) Beantworten
- Möglich wäre es, wenn man einen Ansatz hat, wie ein Nicht-RGB-Bild im Gegensatz zu einem RGB-Bild aussieht. Wenn ich mir die Metadaten der beiden Bilder ansehe, habe ich erstmal keinen Anhaltspunkt, welches Farbmodell verwendet wird. Wenn jemand eine (zuverlässige) Möglichkeit kennt, wie man die Bilder finden kann, dann könnte ich eine systematische wikiweite Suche machen. Im Netz habe ich auf Anhieb nichts gefunden (Nur Leute mit ähnlichen Problemen).
- Zur Info: Bug 24854 und Bug 25703. Der Umherirrende 21:32, 17. Dez. 2011 (CET) Beantworten
- Es geht auf jeden Fall, aber man wird sich in den binären Aufbau einer JPG hineinlesen müssen. Dann geht das so ähnlich wie mit einem alten Virensucher, suche nach
#!?$§
in den ersten 512 Bytes, oder nach einem & oder % auf Byte 78 oder sowas. Vor Jahren hatte ich mal sowas mit TIFF gemacht, das entspräche gerade JFIF; könnte ich heute noch. Wobei man mir genau erklären müsste, was IE nicht rafft, CMYK./.RGB ?? JPG ist eigentlich eher YCbCr, worauf legen wir denn Wert? Wirklich nur 24bit RGB? Vielleicht sitzt in unserer Grafikwerkstatt jemand, der das auswendig weiß. Viel Spaß erstmal --PerfektesChaos 22:01, 17. Dez. 2011 (CET) Beantworten- Jedes Bild einmal runterladen wollte ich aber nicht, das wird zu viel. Daher wäre es schöner, wenn es irgendwie an den Metadaten ableitbar ist, weil die sind einfacher durchsuchbar. IE rafft CMYK nicht, also in dem Beispiel oben wird die alte Bildversion nicht dargestellt (egal ob thumb oder Großformat). Der Umherirrende 22:04, 17. Dez. 2011 (CET) Beantworten
- Wenn man das den Wikipedia-Techs erklärt, könnten die ja mal die Dateien auf Shellebene durcheiern..... (wenn mal einer von denen Langeweile hat ;) ) Mit etwas Glück findet sich dafür wirklich einer, aber garantieren würde ich das nicht - so ein Script liefe vmtl. auch halbe Ewigkeiten --Guandalug 22:11, 17. Dez. 2011 (CET) Beantworten
- Da hätte ich aber bessere Aufgaben für die ;-) Einige shell-Bugs warten noch auf Umsetzung/Kommentierung. Der Umherirrende 22:19, 17. Dez. 2011 (CET) Beantworten
- Ich meinte schon, dass man direkt am Datenbestand sich wirklich immer nur das 5. Bit im Byte 78 oder dergleichen anschauen sollte. Dass das bei unseren Millionen von Bildchen Commons + enWP + deWP + ... ein Weilchen dauert, ist klar. Aber ein einzelnes Byte wäre schneller als jeweils ein ganzer Block an Metadaten zu flöhen. Zumal ich die Befürchtung hätte, dass die bei uns abgelegten Metadaten keine Interna der aktuellen Kodierung verraten. Und EXIF gibt tendenziell eigentlich mehr wieder, was bei den Fotografen im Moment des Klicks los gewesen war. Was für verregnete Winterabende ... --PerfektesChaos 22:34, 17. Dez. 2011 (CET) Beantworten
- Die Metadaten stehen in der Datenbank, da kann ich die API nutzen oder den SQL-Dump der image table durchsuchen. Daher brauche ich dann nicht das physikalische Bild auf meinem Rechner/in meinem Arbeitsspeicher. Von jedem Bild nur die ersten x Bytes herunterladen und diese prüfen, scheint mir auch nicht so praktikabel zu sein, weil es viele einzelne Netzanfragen sind. Der Umherirrende 22:51, 17. Dez. 2011 (CET) Beantworten
- Was ich bis jetzt gelesen habe, läuft immer darauf hinaus, das eigentliche Bild zu untersuchen. Das ist aber nicht leistbar, weil man keine 117.725 Bilder einzeln herunterladen kann. Vielleicht würde auch ein Thumb reichen, aber das bedeutet viel Aufwand für die Server, weil nicht umbedingt für jedes Bild ein Thumb dasein muss oder in der entsprechenden Größe, die man dann nutzt. Man kann wohl nicht anhand der extrahierten Metadaten auf CMYK schließen. Eine Liste aller aktuell genutzten Schlüsselwörter habe ich mal erstellt. Vielleicht kann ja damit jemand etwas anfangen. Der Umherirrende 15:02, 26. Dez. 2011 (CET) Beantworten
- Na, wie ich schon schrieb: Um eine Byte-Analyse direkt auf dem Server wird man nicht herumkommen, auch für die mutmaßlich um den Faktor 10 und höher liegende Anzahl auf Commons (die im deWP-Dump wohl nicht mitgezählt sind?), plus enWP plus div. Tatsächlich braucht man aus jedem Bild, das auf Meta/namensmäßig auf .jpg schließen lässt, nur zwei oder drei Bytes aus den ersten 128 oder 512 Bytes (grundsätzlich können in einem JPG Informationen überall stehen, aber fundamental wichtige wie Abmessungen in Pixeln, Farbtiefe, interne Formate stehen ganz weit vorn, damit sie beim Übertragen so früh wie möglich für erste Vorbereitungen ausgewertet werden können). Und dann braucht es nur einen Grafik-Programmierer (unsere Grafik-Werkstatt oder auf Commons), der Routine darin hat und auf Anhieb sagen kann, dass im Byte 57 das dritte Bit keine Null sein darf oder im Byte 87 das letzte Bit Null sein muss, um eine verbotene Datei zu identifizieren. Ich kann sowas grundsätzlich auch, habe aber so rein garnix mit Bildchen und JPG zu tun und müsste mich zuvor mehrere Tage einlesen. Ich weiß aber, dass sich in Foren auf solche konkreten Fragen Leute finden, die die Antwort aus dem Ärmel schütteln oder nur einen kurzen Blick ins Manual werfen müssen. Mit dieser Info muss man dann zu den Server-Leuten, oder sonstwie PHP-/toolservermäßig abscannen. Dann hat man eine Liste der zu konvertierenden Bilder.
- Frag doch mal Leute (unsere Werkstatt, Commons-Techies und Webforen) danach, welche Bytes denn konkret zu untersuchen wären; dann wäre man schon einen Schritt weiter. Wenn man das weiß, kann man über einen Tool/Server-Lauf nachdenken; muss ja nicht mehr dieses Jahr sein.
- Dir ein paar entspannte Tage, und auch in 2012 viel Erfolg mit wiki&Co. --PerfektesChaos 20:37, 26. Dez. 2011 (CET) Beantworten
- Ist wohl doch nicht so wichtig: Selbst in einer Navileiste meckert niemand. Gruss --Nightflyer 22:34, 26. Dez. 2011 (CET) Beantworten
- Eine intitle-Suche bringt auch schon einige Treffer, weil manch Uploader "cmyk" im Dateinamen verwendet. Hier sind aber vorallem Commons-Dateien dabei. Der Umherirrende 19:54, 1. Jan. 2012 (CET) Beantworten
- Ist wohl doch nicht so wichtig: Selbst in einer Navileiste meckert niemand. Gruss --Nightflyer 22:34, 26. Dez. 2011 (CET) Beantworten
- Was ich bis jetzt gelesen habe, läuft immer darauf hinaus, das eigentliche Bild zu untersuchen. Das ist aber nicht leistbar, weil man keine 117.725 Bilder einzeln herunterladen kann. Vielleicht würde auch ein Thumb reichen, aber das bedeutet viel Aufwand für die Server, weil nicht umbedingt für jedes Bild ein Thumb dasein muss oder in der entsprechenden Größe, die man dann nutzt. Man kann wohl nicht anhand der extrahierten Metadaten auf CMYK schließen. Eine Liste aller aktuell genutzten Schlüsselwörter habe ich mal erstellt. Vielleicht kann ja damit jemand etwas anfangen. Der Umherirrende 15:02, 26. Dez. 2011 (CET) Beantworten
- Die Metadaten stehen in der Datenbank, da kann ich die API nutzen oder den SQL-Dump der image table durchsuchen. Daher brauche ich dann nicht das physikalische Bild auf meinem Rechner/in meinem Arbeitsspeicher. Von jedem Bild nur die ersten x Bytes herunterladen und diese prüfen, scheint mir auch nicht so praktikabel zu sein, weil es viele einzelne Netzanfragen sind. Der Umherirrende 22:51, 17. Dez. 2011 (CET) Beantworten
- Ich meinte schon, dass man direkt am Datenbestand sich wirklich immer nur das 5. Bit im Byte 78 oder dergleichen anschauen sollte. Dass das bei unseren Millionen von Bildchen Commons + enWP + deWP + ... ein Weilchen dauert, ist klar. Aber ein einzelnes Byte wäre schneller als jeweils ein ganzer Block an Metadaten zu flöhen. Zumal ich die Befürchtung hätte, dass die bei uns abgelegten Metadaten keine Interna der aktuellen Kodierung verraten. Und EXIF gibt tendenziell eigentlich mehr wieder, was bei den Fotografen im Moment des Klicks los gewesen war. Was für verregnete Winterabende ... --PerfektesChaos 22:34, 17. Dez. 2011 (CET) Beantworten
- Da hätte ich aber bessere Aufgaben für die ;-) Einige shell-Bugs warten noch auf Umsetzung/Kommentierung. Der Umherirrende 22:19, 17. Dez. 2011 (CET) Beantworten
- Wenn man das den Wikipedia-Techs erklärt, könnten die ja mal die Dateien auf Shellebene durcheiern..... (wenn mal einer von denen Langeweile hat ;) ) Mit etwas Glück findet sich dafür wirklich einer, aber garantieren würde ich das nicht - so ein Script liefe vmtl. auch halbe Ewigkeiten --Guandalug 22:11, 17. Dez. 2011 (CET) Beantworten
- Jedes Bild einmal runterladen wollte ich aber nicht, das wird zu viel. Daher wäre es schöner, wenn es irgendwie an den Metadaten ableitbar ist, weil die sind einfacher durchsuchbar. IE rafft CMYK nicht, also in dem Beispiel oben wird die alte Bildversion nicht dargestellt (egal ob thumb oder Großformat). Der Umherirrende 22:04, 17. Dez. 2011 (CET) Beantworten
- Es geht auf jeden Fall, aber man wird sich in den binären Aufbau einer JPG hineinlesen müssen. Dann geht das so ähnlich wie mit einem alten Virensucher, suche nach
Da hab ich ja was schönes angeleiert, aber macht einfach weiter, das packt ihr schon... :-) Gruss --Nightflyer 23:12, 17. Dez. 2011 (CET) Beantworten
Etwas Statistik, um die Anzahl der Bilder zu überschlagen: Aufteilung der Bilder nach MIME-Type (auf Basis des Dumps vom 12.12.2011)
image/jpeg=117.725 image/png=29.757 image/svg+xml=26.807 image/gif=8.985 application/pdf=415 audio/midi=355 application/ogg=302 image/tiff=91 image/x-bmp=45 audio/mid=11 audio/wav=6 application/zip=4 audio/mpeg=4 application/vnd.ms-excel=3 application/xml=3 audio/mp3=2 application/x-bzip2=1 image/x-xcf=1 unknown/unknown=1
Betrifft das CMYK nur Jpegs oder auch andere Dateiformate? Der Umherirrende 12:26, 18. Dez. 2011 (CET) Beantworten
- Mir ist nur JPEG bekannt. Gruss --Nightflyer 20:10, 18. Dez. 2011 (CET) Beantworten
Nach einem erneuten Lesen und googlen von JPEG-Definitionen, habe ich mich dazu entschlossen eine visiuelle Prüfung vorzunehmen. Ich habe die 117.725 Dateien daher in Blöcke a 5000 Dateien gesplittet und diese als gallery im Vorschau-Modus anzeigen lassen. Danach bin ich darüber gescrollt und habe die nicht dargestellten Thumbs gesucht und aufgelistet. Es sind 171 Dateien geworden (0,15 %). Aus diesem Grunde kann es natürlich vereinzelnt noch dazu kommen, dass es CMYK-Dateien gibt, aber mir ist keine Methode mit vertretbarem Aufwand eingefallen. Das Durchschauen wird nur wesentlich langsamer gewesen sein, als die Programmierzeit und anschließende Laufzeit für ein entsprechendes Programm/Skript. Der Umherirrende 23:01, 1. Jan. 2012 (CET) Beantworten
- Du hast dir dein erstes Bienchen für dieses Jahr aber früh verdient ;-) Danke und Gruss --Nightflyer 23:03, 1. Jan. 2012 (CET) Beantworten
- Danke. Man muss es nur lang genug schieben, um das vom Datum her zu erreichen ;-) Der Umherirrende 23:07, 1. Jan. 2012 (CET) Beantworten
- Done. Diese Bilder sind umkodiert nach RGB. Jetzt soll sich die Community um die Verwendung kümmern ;-) Gruss --Nightflyer 22:57, 2. Jan. 2012 (CET) Beantworten
- Zur Info: Kurier Gruss --Nightflyer 23:37, 2. Jan. 2012 (CET) Beantworten
- Oh danke, damit hätte ich jetzt nicht gerechnet ;-) Danke aber auch für das umkodieren, ist ja auch keine tolle Arbeit. Der Umherirrende 15:16, 3. Jan. 2012 (CET) Beantworten
- Zur Info: Kurier Gruss --Nightflyer 23:37, 2. Jan. 2012 (CET) Beantworten
- Done. Diese Bilder sind umkodiert nach RGB. Jetzt soll sich die Community um die Verwendung kümmern ;-) Gruss --Nightflyer 22:57, 2. Jan. 2012 (CET) Beantworten
- Danke. Man muss es nur lang genug schieben, um das vom Datum her zu erreichen ;-) Der Umherirrende 23:07, 1. Jan. 2012 (CET) Beantworten
Aktueller Firefox (9.0.1): Logo Charte.jpg -> Thumbs sind korrekt. Stephenie Meyer - Újhold.jpg -> Thumbs sind falsch.
Aktueller IE (9.0.8112.16421): Logo_Charte.jpg -> Thumbs sind korrekt. Stephenie Meyer - Újhold.jpg -> Thumbs sind falsch (Darstellung etwas besser als bei anderen Browsern).
Aktueller Google Chrome (16.0.912.63): Logo_Charte.jpg -> Thumbs sind korrekt. Stephenie Meyer - Újhold.jpg -> Thumbs sind falsch.
Das Bild in voller Auflösung wird immer korrekt dargestellt. Wäre interessant zu wissen, was da schief läuft (ImageMagick auf dem Thumbnail-Server?). Alternativ: Auf unseren Hilfe-Seiten dokumentieren, dass es diese Probleme gibt, und dass JPEG immer RGB-kodiert werden sollten. --Krischan111 16:07, 3. Jan. 2012 (CET) Beantworten
- Es kann sein, das es in den jeweils aktuellsten Versionen der Browser keinerlei Probleme mehr gibt. Aber im IE8 beispielsweise wurde kein Thumb für die Dateien dargestellt. Der Umherirrende 16:25, 3. Jan. 2012 (CET) Beantworten
- Wie gesagt, auch in den aktuellen Versionen gibt es fehlerhafte Darstellung. --Krischan111 20:59, 3. Jan. 2012 (CET) Beantworten
- Der derzeit getestete VIPS image scaler könnte möglicherweise Abhilfe schaffen, falls er für JPGs aktiviert wird, siehe etwa [1] (eins von mehreren Bildern für den Jahresbericht der Foundation, die im Hinblick auf die Druckversion als CMYK angefertigt wurden, die wir aber wegen Bug 24854 dann für die Wiki-Version noch mal als RGB auf Commons hochladen mussten).
- Grüße, Tbayer (WMF) 17:12, 3. Jan. 2012 (CET) (HaeB)Beantworten
- Nur der Vollständigkeit wegen, scripten ließe es sich auf einem Unix z. B. mit einer bash >= 3.0 wie folgt, wenn Imagemagick installiert ist:
X=$(identify -verbose "DATEINAME.JPG" | grep Colorspace:) if [[ "$X" =~ CMYK ]]; then echo "CMYK" else echo "Nicht CMYK" fi
- identify liest dabei allerdings die ganze Datei. Viele Grüße --Marsupilami (Disk|Beiträge) 18:56, 3. Jan. 2012 (CET) Beantworten
Commons-Duplikate
Hallo Umherirrender, könntest Du, wenn Du mal Zeit hast, die Seite Wikipedia:WikiProjekt Commons-Transfer/Commons-Duplikate wieder aktualisieren? Grüße --Brackenheim 18:32, 20. Dez. 2011 (CET) Beantworten
- Schaue ich mir an. Kann aber ein paar Wochen dauern. Der Umherirrende 19:21, 20. Dez. 2011 (CET) Beantworten
- Nur kein Stress ;-) --Brackenheim 20:01, 20. Dez. 2011 (CET) Beantworten
- Geschafft. Es gibt 182 neue Dateien zur Prüfung. Viel Spaß. Der Umherirrende 17:26, 4. Jan. 2012 (CET) Beantworten
- Oh, je, schon wieder so viele... Danke und Grüße --Brackenheim 17:37, 4. Jan. 2012 (CET) Beantworten
- War ja auch ein halbes Jahr vergangen. Es waren aber auch 59 identische Dateien dabei, die nicht NoCommons und nicht NowCommons hatten. Das fand ich viel, wo wir doch RevoBot haben. Aber jetzt haben auch die Dateien alle NowCommons. Der Umherirrende 17:55, 4. Jan. 2012 (CET) Beantworten
- Oh, je, schon wieder so viele... Danke und Grüße --Brackenheim 17:37, 4. Jan. 2012 (CET) Beantworten
- Geschafft. Es gibt 182 neue Dateien zur Prüfung. Viel Spaß. Der Umherirrende 17:26, 4. Jan. 2012 (CET) Beantworten
- Nur kein Stress ;-) --Brackenheim 20:01, 20. Dez. 2011 (CET) Beantworten
Hallo Umherirrender. Die Löschung von Weinbauschule.jpg geht in Ordnung. Ich habe es nicht hingebracht d. vor längerer Zeit hochgeladene Bild auf Commons zu transverieren. HG Karl --Karl Bauer 19:19, 4. Jan. 2012 (CET) Beantworten
- Hallo Karl Bauer, bald wird sich ein Admin um das Bild kümmern. Du hast es auf Commons transferiert, das lokale Bild muss dann immer gelöscht werden. Es ist nicht möglich die Datei über eine Projektgrenze zu verschieben.
- Ich kann nicht löschen und würde es auch nicht machen, weil wir erfahrende Leute haben, die schauen, das alles auf Commons ordentlich ist. In diesem Fall ist das einfach, weil es der gleiche Benutzer ist, aber manchmal gibt es auch Fälle, wo es Probleme mit der Lizenz gibt. Einfach abwarten. Der Umherirrende 19:27, 4. Jan. 2012 (CET) Beantworten
- Danke, HG Karl --Karl Bauer 19:29, 4. Jan. 2012 (CET) Beantworten
.wav
Wie kommt denn die .wav-Datei auf Commons hoch, die duch hier aufführst, obwohl .wav nicht zu den zugelassenen Formaten gehört? Ist es dir vielleicht möglich, die .wav-Datei herauszusuchen? 88.130.220.236 20:34, 5. Jan. 2012 (CET) Beantworten