2025-10-25

О сжатии интеллектуальных прав

Когда говорят об авторском праве, имеют в виду некую объективную сущность вроде “права на жизнь” или бутерброда с колбасой. Авторское право в французской традиции и по воле случая в российской действительности считается “моральным правом”, то есть чем-то, что неразрывно связано с автором и результатом его непосильных творческих трудов.

Конечно же, это все обман чтобы экономика как-то работала. Обман был придумал в Англии всего 300 лет назад, а до текущего вида доработан в Бернской конвенции в 1886 году. С тех пор в мире много чего поменялось, и сейчас у информации есть происхождение, интерпретация, и возможно даже автор, но нет никакого права.

Почему? Ответ находится где-то в информатике. Эта область знания родила не только утомительные пуши с призывом сыграть в рулетку в банковском приложении, но и довольно элегантную концепцию невозможности сжатия файла без потерь. Идея в том, что если запустить программу .winzip и заставить ее сжать сто файлов, то программа с радостью уменьшит размер множество из этих файлов, но обязательно увеличит размер некоторых файлов.

В общих чертах, алгоритм сжатия и восстановления работает следующим образом: берем сто кроликов (люблю примеры), присваиваем им имена, берем 90 клеток, присваиваем им номера. Каждому имени кролика мы мысленно присвоили номер клетки, но вот незадача: клеток меньше, и какие-то ушастые бедолаги будут сидеть по двое. После выполнения задачи сжатия кроликов в клетки просим нашего крайне внимательного друга открыть клетки и сказать, кому из кроликов принадлежит какая клетка: в большей части кейсов наш друг справляется, но в некоторых — видит двух кроликов и теряется. Задача полного восстановления провалена, все опечалены.

Эта штука известна как принцип Дирихле. Согласно принципу, если попробовать сжать строку в 10000 символов до строки в 10 символов, то у нас возникнут проблемы с восстановлением: 9990 (или сколько там, я эксперт по кроликам, не по цифрам) символов просто исчезнут, их негде будет взять.

Получается, что сжать без потерь невозможно? Конечно это не так. При сжатии алгоритм не ограничен длинной строки: на самом деле, время от времени алгоритм создает строку длиннее исходной, основываясь на предсказуемости происходящего в файле. Иными словами, алгоритм сам решает, что ему сжать, а что, наоборот, увеличить.

Задача с нашими кроликами решается тем, что наш друг, во-первых, получает бумажку, на которой написано, что в клетке 25 сидит кролик Миша (тот самый “новый” файл, который получается при сжатии), а во вторых — кучу теоретической информации о поведении кроликов в закрытых пространствах, благодаря которой он интуитивно угадывает, какой именно кролик особым образом вайбит с определенной клеткой. Такой вот дар у человека.

Хороший кодек для аудио файлов знает, как устроен человеческий слух; алгоритмы сжатия воплощают в себе знания о закономерностях в данных, которые им поручено обрабатывать.

Чем более узко направлен алгоритм — тем выше его эффективность: хороший алгоритм для сжатия текста будет отвратительно сжимать музыку и наоборот. Если наш друг немного странный и его интересуют только кролики и клетки — он правильно восстановит информацию о том, кто где должен сидеть без всяких там бумажек, и за 3 секунды.

Ладно, вернемся к праву, я все таки юрист! И когда я, как это часто бывает, размышляю об алгоритмах сжатия тех или иных файлов и роли дискретной математики в кролиководстве, у меня от тревожности начинают дергаться глаза и скрипеть зубы.

Потому что вроде как выходит, что содержание файла неотделимо от его интерпретации 🤯

И в этом случае мне неясно, где у нас исходное произведение, а где — его производная часть.

Ладно, звучит сложно, поэтому возьмем близкий к вопросу пример: композицию Gasoline группы Crystal Castles. Этот абсолютно разрывной трек в данный момент воспроизводится моим медиаплеером с использованием алгоритма AAC. Если я заменю исходный файл в плеере — получится какофония, если заменю алгоритм — музыка перестанет работать. Получается, для возникновения моего пританцовывающего опыта нужны оба элемента: исходный файл и алгоритм.

Но упомянутая раньше наука информатика считает, что код — это данные, а данные — это код. По простому это значит, что мы можем создать программу “tancevat.exe” весом в 100 гигабайт, единственной задачей которой будет проигрывание композиции Gasoline без какого-либо внешнего музыкального файла. С точки зрения наблюдателя разницы не будет: звуки те же самые, ритм тоже, на уровне информации же ситуации абсолютно разные.

На одном конце этого немного затянутого спича (вот бы сжать) — .WAV файл, сжатый на 0%, алгоритм с ним ничего не делает. На другом — 15 раз пережатый mp3, скачанный с пиратского сайта. Там входных данных почти не осталось, все работает через алгоритм, который при запуске файла восстанавливает композицию из жалких крох исходных данных.

Ладно, это все весело, теперь настало время подумать.

Представим алгоритм, который сам содержит все звуки композиции Gasoline в виде массива данных. Он не требует исходного файла с музыкой: мы просто запускаем алгоритм, звуки играются, мы танцуем. Мы, глядя на наш очень умный алгоритм, берем исходную композицию и исключаем из нее сначала сотые секунды звука, потом десятые, потом целые, а потом целые участки. Добавляем файл к алгоритму, он все равно проигрывается идеально. Потом делаем алгоритм поглупее — начинаются проблемы со звуком, добавляем отрезанные куски в файл, становится лучше. Потом делаем алгоритм умнее, теперь в файле есть пачка бесполезных данных, которые не нужны алгоритму, удаляем их, ничего не меняется.

В общем идея понятна, а сформулировать ее можно так: информация не привязана к конкретному объекту, ее можно распределить между алгоритмом и источником в каких угодно пропорциях, и прикол в том, что мы как пользователи не особо знаем, где заканчивается кхм кхм “произведение”, а где — начинается алгоритм.

Ладно, мы достаточно подумали о приятных вещах, вернемся к авторскому праву.

В обычном случае (кодек AAC + файл Gasoline) очевидно, что право охраняет файл.

Но в крайнем случае, когда весь трек закодирован в алгоритме сжатия, а на входе у нас 2 бита файла — право вроде как охраняет алгоритм.

Между этими крайностями лежит непрерывный диапазон состояний, где часть информации постепенно «перетекает» из данных в код. И это все в отсутствие право на модификацию: алгоритм по своей воле вносит изменения в файл, т.е. посягает на святое а именно на неприкосновенность объекта интеллектуальной собственности в части изменений без разрешения правообладателя.

Где именно происходит переход? На середине пути? На три четверти? На каком именно байте? А фиг его знает, потому что граница тут абсолютно произвольна, и может отличаться от запуска файла к запуску.

Сейчас все сильно усложнилось: кроме проблем с внесением в Охраняемое Правом Произведение изменений силами алгоритма сжатия есть миллиард других случаев, в которых фикция незыблемого авторского права ловко игнорируется.

Начиная от процесса “вдохновения”, когда один музыкант берет аранжировку другого, меняет ритм, добавляет свой вокал и получает новую композицию, заканчивая процессами коллективного создания ПО, в котором кроме очевидных авторов, запушивших код, есть еще анонимный комментатор с стаковерфлоу, код которого уходит в мэйн в состоянии “как есть”. Надеюсь, теперь ясно, чего я постоянно невеселый: делать вид, что интеллектуальная собственность — не мем очень сложно.

Есть правда и другие подходы.

Если признать его «моральным», то тем самым приходится признать допустимость ограничения других моральных прав — прежде всего права на свободу выражения.

Попытки же представить интеллектуальную собственность как эквивалент собственности физической опровергаются простым фактом: когда информация становится неприятна государству, последнее не отнимает у автора рукопись, оно запрещает распространение самой информации в любой форме.

Таким образом, различие между «вещью» и «информацией» — принципиально. И чем дальше развивается техника, тем явственнее видно: авторское право держится не на логике и морали, а на привычке.

Авторское право в сегодняшнем виде — продукт эпохи индустриальной революции и ранних представлений об информации. Сейчас можно свободно перераспределять информацию между файлами и алгоритмами, а что-то концептуально новое придумать крайне сложно, и сама идея “копирования” потеряла необходимую для правоприменения определенность.