Uploadfilter funktionieren

Behauptung: Uploadfilter können funktionieren.

z.B. behauptet von der GEMA am 20.02.19 auf dem offiziellen GEMA Twitter-Account.

Gema Tweet
https://twitter.com/gema_news/status/1098263167636041729

 

Ich habe dann auf Twitter versucht an einem Rechenbeispiel zu erklären, wie viel Speicherplatz notwendig wäre um eine Datenbank für die Rechte der Fotografen allein brauchen würde. Die Annahmen, die ich dabei getroffen habe waren, wie mir gesagt wurde, sehr konservativ, daher hier noch einmal die Rechnung in Kürze mit fundierteren Annahmen.

Auf der Seite Instagram wurden 2016 jede Minute 40.000 Beiträge hochgeladen. Ich gehe der Einfachheit halber mal von ausschließlich Bildern aus. Laut colorlib, kann ein Bild auf Instagram eine Auflösung von maximal 1080px mal 1350px haben.

[Quelle: https://colorlib.com/wp/size-of-the-instagram-picture/]

Test halber habe ich ein Bild, das ich gemacht habe, auf die entsprechende Größe gebracht und im JPG-Format mit unterschiedlichen Kompressionsraten gespeichert. Das Bild hatte danach eine Größe von 29,7kB bis 882kB. Bei zu großer Kompression entstehen unschöne Fraktale, daher ist eine Kompression um mehr als 50% unwahrscheinlich. Die resultierende Dateigröße ist 82,8 kB. Sagen wir um besser zu rechnen 80kB. D.h. auf Instagram werden jeden Tag mindestens 4.608 Mrd. kB (=40.000 Bilder x 60 min x 24 h x 80 kB) an Material hochgeladen. Selbst wenn Instagram 5% Urheberrechtsverstöße hätte, wären das immer noch 4,077 TB an Daten.

Da sind die ganzen professionellen Fotografen, die Ihre Bilder in mit bis zu 4k Auflösung auf anderen Seiten ins Internet stellen, noch nicht enthalten. Die Seite fotocommunity.de bekommt beispielsweise 9.300 Bilder jeden Tag neu dazu.

Aber bleiben wird bei unserer niedrigen, konservativen Schätzung. 4TB Daten pro Tag, das macht 1,45 PB jedes Jahr. Und jede Plattform müsste prüfen, ob für diese Bilder eine Lizenz vorliegt.

Jetzt könnte man argumentieren, dass laut Artikel 9a ja Generallizenzen erworben werden, aber Matthias Hornschuh hat ja sehr deutlich gesagt:

„Man wird nur detektieren, kennen wir das, kennen wir das nicht. Und wenn wir es kennen wird noch eine zweite Anfrage gestellt, nämlich ist es lizensiert oder nicht.“

Um aber zu wissen, ob eine Generallizenz für diese Bilder vorliegt, müsste jedes dieser Bilder in einer Datenbank zum Vergleich vorliegen. Und hier ist das erste Problem: Entsprechender Speicherplatz für so viele Bilder kostet beim Marktführer Amazon S3 mindestens 0,01 USD pro GB, also 15.238 USD pro Jahr. Das eliminiert schon mal sämtliche Hobbyforen, die die Möglichkeit anbieten Bilder hochzuladen, älter als 3 Jahre sind und weniger als 15.238 USD Gewinn abwerfen.

Und da sind wir auch schon beim 2. Problem. Dieser Betrag kommt jedes Jahr dazu, also 15,238 im 1. Jahr, 30.476 im 2., 45.714 im 3. usw. Innerhalb weniger Jahre würden so sämtliche kleinen Seitenbetreiber von allein den Kosten des Speicherplatzes aufgefressen werden, selbst wenn man kostengünstigeren Speicher in der Zukunft annimmt. Und 2 Dinge sind in diesen Kosten noch nicht mit kalkuliert: Der Filter selber, der YouTube in der Entwicklung zwischen 60 und 100 Mio. USD gekostet hat, und die benötigte Datenmenge für alle Bilder, die bisher schon gemacht wurden. Die beste Alternative ist also, eine zentrale Datenbank, bei einem Anbieter, der sich den Speicherplatz leisten kann und der gleichzeitig einen „funktionierenden“ Filter hat: Youtube und Facebook. Statt also die Großen in die Verantwortung zu nehmen, stürzt man kleine Plattformen ins Verderben, indem man ihnen keine Wahl lässt, außer bei den großen Plattformen Dienste einzukaufen und sie somit abhängig zu machen oder ihren Betrieb einzustellen.

Ich bin auf Twitter darauf hingewiesen worden, dass ich keine Ahnung hätte. Zugegeben, ich bin von Bildern von Hobbyfotografen ausgegangen, habe eine Annahme über die Frequenz von Uploads angenommen -basierend auf einer zu kleinen Stichprobe- bin von größerem Speicherbedarf ausgegangen, und hatte einen teureren Tarif beim Speicher genommen, daher war meine erste Abschätzung der Kosten zu hoch. Mea culpa. Die Schlussfolgerung, dass nämlich die Kosten für die kleinen Unternehmen untragbar wären, bleibt aber bestehen.

Die Kritik des Users bezog sich auch nicht auf meinen Rechenweg, sondern, dass zum Abgleich keine Bilder in hoher Auflösung notwendig seien. Schließlich funktionieren Dienste wie Shazam, die Google Bildersuche und Touch-ID.

Also habe ich mich darüber schlau gemacht, wie diese Funktionen im Detail arbeiten.

Zu shazam habe ich einen sehr interessanten, aber sehr anspruchsvollen Artikel zum Thema gefunden.

[Quelle: https://www.matheretter.de/wiki/shazam]

Dort wird im Detail erklärt, wie aus einem Lied ein digitaler Fingerabdruck erstellt wird und wie dieser mit einer erzeugten Tabelle abgeglichen wird. Der entscheidende Punkt hierbei ist: es wird eine mathematische Formel angewendet, um aus einem ins Digitale umgewandelte analogen Signal, eine Tabelle zu machen. Und die App verwendet dann die Methode, sobald sie einen Song erkennen soll, um eine „Mini-Tabelle“ zu erzeugen, die dann mit der Datenbank abgeglichen wird. Eine solche Tabelle, enthält wesentlich weniger Daten, als die eigentliche Musikdatei.

Beim Touch-ID verfahren wird der Fingerabdruck, der vom Benutzer eingespeichert wird, als „daraus abgeleitete mathematische Darstellung des Abdrucks“ im Gerät hinterlegt.

[Quelle: https://www.netzwelt.de/touch-id/index.html#funktioniert-touch-id%5D

Beim Entsperren wird aus dem erkannten Muster des 88×88 Pixel Scanners, die daraus ermittelte mathematische Darstellung mit der hinterlegten Darstellung abgeglichen. Also auch hier wieder, der Vergleich von mathematisch erzeugten Tabellen, die auf bestimmte Werte durchsucht werden. Die Werte in der Datenbank sind kleiner als das „Prüfstück“. Aus einem echten Fingerabdruck, wird ein digitaler gemacht.

Bei Musik ist ein solcher digitaler Fingerabdruck, trotz der komplizierten Mathematik dahinter, relativ einfach zu erstellen. Das verwendete Tonspektrum eines Liedes ist im Wesentlichen ein Zeit-Frequenz-Diagramm mit 30 Datenpunkten pro Sekunde. Aber diese Zuordnung ist so eindeutig, dass bereits das Abspielen des gleichen Liedes mit höherer Geschwindigkeit (1,25-fach) dafür sorgt, dass das Lied nicht von der App erkannt wird. Weil die Toleranzen des Abgleichs zu eng gewählt sind, lässt sich ein Filter der darauf beruht sehr leicht austricksen und wäre nutzlos.

Und auch die Touch-ID-Funktion ist keineswegs so perfekt wie sie scheint. Hier werden leichte Toleranzen mit eingerechnet, zum Beispiel um trotz Verletzungen am Finger den Abdruck zu erkennen. Dafür lässt er sich dann aber auch der Scanner austricksen, wie der CCC bewiesen hat. Und bei der Touch-ID kommt hinzu, dass nur gegen 5 Muster, die hinterlegt wurden, verglichen werden muss. Ein Uploadfilter müsste Millionen Muster vergleichen.

Kommen wir daher zur Bildersuche. Auch hier wird ein mathematischer Algorithmus angewendet um nach Bildern zu suchen. Ich bin Amateurfotograf und habe ein paar der von mir selbst gemachten Bilder bei Instagram, auf meiner Homepage und auf einem Hobbyfotoportal hochgeladen. Diese Bilder habe ich jetzt, über ein halbes Jahr später in die Google Bildersuche eingegeben. Keines der von mir getesteten Bilder wurde gefunden, dafür wurden mir „ähnliche“ Bilder angezeigt, die Portraitgemälde der Renaissancezeit waren. Die Toleranz dieser mathematischen Darstellung des Bildes ist also groß genug um ein Portrait eines 2018er Fotoshootings für Gemälde des 15./16. Jahrhunderts zu halten. Jetzt könnte man argumentieren, dass man einfach die Toleranzen enger setzen sollte, damit dieses nicht mehr funktioniert. Und dann kommt die Frage, wie eng diese Toleranzen gesetzt werden müssen und können.

Das Urheberrecht wird nämlich nicht nur verletzt, wenn das genau gleiche Bild verwendet wird, sondern auch, wenn die Veränderung an dem Bild nicht die notwendige „Schöpfungshöhe“ hat, um als neues Werk zu gelten. Das Problem: Bei der Bewertung, ob etwas diese Schöpfungshöhe hat, mussten bisher Richter entscheiden. Jetzt soll es ein Filter.

Also muss ein Filter auch Bilder zurückhalten, die gedreht, gespiegelt und verzerrt wurden, die nur gering in Farbe, Sättigung und Kontrast angepasst wurden, die anderweitig retuschiert, oder abfotografiert wurden usw.

Der Datenaufwand, eine entsprechende Abgleichstabelle zu erstellen wäre enorm und würde eben nicht weniger Speicherplatz brauchen, als das zu prüfende Bild. Das System, wie es auf Lieder bei Shazam angewendet wird, funktioniert nicht bei Bildern, und ein System, wie es die Googlesuche verwendet ist viel zu ungenau, insbesondere mit der Datenmenge, die es zu verarbeiten gilt.

Bei allem vertrauen in die Technik, Uploadfilter, wie sie Artikel 13 impliziert, können nicht funktionieren.

Ein Kommentar zu „Uploadfilter funktionieren

  1. Ich habe hierzu mal einen Test des Content ID Systems unter realen Bedingungen gemacht. Das Ergebnis war ernüchternd.
    Testbericht

    Wie das Content ID System von Youtube versagt

    Testaufbau:
    Ich habe ein DJ Set gespielt und dieses bei Facebook als Livestream gesendet. Dabei wurde das eigendliche Mixing auf einem Laptop mit Traktor 3.1 erstellt und analog auf einen 2. Rechner übertragen. Der 2. Rechner hat eine Tascam 322 als externen Audio Input. Das Signal wird dort dann mittels Wirecast mit dem Videosignal mehrerer Kameras gemuxt und zum Facebook Livestream übertragen. Bei Facebook erfolgt die Aufzeichnung. Anschliessend wurde das Video von Facebook als mp4 runter geladen und danach bei Youtube hochgeladen und veröffentlicht.

    Ablauf:
    Ich habe das DJ Set ganz normal gespielt und dafür ausschliesslich Tracks verwendet, die von mir selbst produziert und alle bei verschiedenen Labels veröffentlicht wurden. Darunter befanden sich auch Remixe, die ich für andere Künstler erstellt habe sowie auch Remixe, die andere von meinen Tracks gemacht haben. Somit fallen alle diese Tracks unter das Urheberrecht und wären damit Lizenzpflichtig. ALLE verwendeten Tracks wurden bereits vor längerer Zeit Veröffentlicht und bei Veröffentlichung auch für das Content ID System eingetragen. Bei den Tracks, die auf meinem eigenen Label releast wurden, habe ich diesen Eintrag selber veranlasst, bei anderen Labels wurde das von den entsprechenden Labels gemacht und auch bestätigt.
    Beim Mixing habe ich vollständig auf die Verwenung von Effekten verzichtet und lediglich teilweise mehrere Quellen übereinander laufen lassen. Wichtige Teile der einzelnen Tracks liefen solo. Somit wäre im Normalfall eine Identifizierung durchaus möglich gewesen.

    Ergebnis:
    Vom Content ID System wurde nicht ein einziger Track erkannt. Die Identifizierungsrate liegt also bei erstaunlichen 0%.
    Selbst beim Versuch, die selbe Datei durch einen anderen hochladen zu lassen, dem ich die MP4 Datei gegeben habe, wurde nicht ein einziger Track erkannt.

    Fazit:
    Das Content ID System hat vollständig versagt. Daher ist es durchaus zu hinterfragen, ob ein solches System dafür geeignet wäre, als Basis für Uploadfilter verwendet zu werden.

    Ergänzung:
    Auch das Erkennungssystem von Shazam konnte keinen einzigen Track erkennen.

    Gefällt mir

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s