ОСТАННІЙ ПОДКАСТ
Підписуйся на найнауковішу розсилку!
І отримуй щотижневі новини науки і технологій

    Ми під'їдаємо крихти cookies за вами. Навіщо це нам?

    Читати

    Пардон за відволікалочку. Допоможи Куншт бути незалежним!

    Пардон за відволікалочку. Допоможи Куншт бути незалежним!

    Повідомлення успішно надіслано

    Для пошуку
    введіть назву запису
    Наука — 05.07.22
    ТЕКСТ: Ірина Єгорченко
    Ілюстрації: Дар’я Скрибченко
    Ми любимо тексти без помилок. Якщо ви все ж таки щось знайшли, виділіть фрагмент і натисніть
    Ctrl+Enter.
    Біт у мішку

    Про те, як інформації стає все більше, чому найпопулярніша у світі «абетка» складається із двох знаків і хто такий Клод Шеннон.

    П’ятдесят років тому почали говорити про швидке зростання обсягу інформації, а в 1975 році народився термін «інформаційний вибух» (лавиноподібне зростання кількості інформації). Саме цим зростанням і необхідністю ефективного пошуку обґрунтовують потребу продовження терміну навчання в середній школі до 12 років. Спробуємо розібратися, що таке обсяг інформації, як його вимірювати та чи справді обсяг інформації, що потрібно знати сучасній людині, суттєво зріс.

     

    Перш ніж щось вимірювати, треба дати визначення нашому об’єкту. Означення інформації в різних контекстах суттєво відрізняється: в побутовому, наприклад, – це відповідь на якесь запитання, зменшення невизначеності, повідомлення, дані, знання. Інформація може існувати й без свідомого спостерігача: нею із середовищем свого існування обмінюються тварини та рослини, вона зберігається в ДНК. Інформація залежить від своєї значущості – наприклад, для людини, яка користується папером в ролі носія інформації, чистий аркуш не має цінності. Проте для спеціаліста з виробництва паперу (чи із закупівлі паперу для якихось потреб) цей аркуш містить інформацію про вагу, товщину, розмір, якість, колір.

     

    Із точки зору теорії інформації (сукупність наук, що вивчають її вимірювання, перетворення, кодування та передавання) останню можна визначити, як упорядковану послідовність символів певного «алфавіту».

     

    Один із підходів до вимірювання кількості інформації – це просто підрахунок кількості символів у повідомленні. Такий підхід є дуже приблизним: кількість символів залежить від обраного «алфавіту», принципів кодування, значущості форматування повідомлення. Наприклад, якщо використовувати звичайний латинський алфавіт, то літера «а» – це один символ, а якщо використовувати систему кодування ASCII (англ. American Standard Code for Information Interchange ), то літера «а» буде передаватися вісьмома символами – «110 0001». Слова в українській мові в середньому довші, ніж в англійській, і тому той самий текст українською буде приблизно на 10–20% довшим за текст англійською. Але попри таку значну неточність, символьний підхід до вимірювання обсягу інформації важливий, наприклад, для оцінки обсягу необхідних носіїв для її збереження та пропускної здатності каналів її передавання.

     

    Вибір найкращої системи кодування для конкретної мови чи цілі є цікавим завданням незалежно від теорії інформації, а зміна «абетки» (чи намагання її змінити) викликали й викликають багато суперечок та проблем. Показовим є приклад азербайджанської мови: в ній відбувалися переходи від арабської абетки до латинської, потім на кирилицю, а тоді знову на латиницю. Деякі мови (наприклад, грузинська та вірменська) зберігають власні історичні абетки протягом багатьох сотень років. Зміна алфавіту в цьому контексті – це втрата доступу до книг та записів для наступних поколінь; збереження ж унікальної історичної абетки створює перешкоди для поширення комп’ютерної грамотності та входження до глобального інформаційного простору.

     

    Люди, які почали користуватися комп’ютерами років 10 тому чи ще раніше, можуть пригадати проблеми з численними видами кодувань кирилиці та боротьбу з незрозумілими «кракозябрами», які часто виникали внаслідок кон фліктів кодування тексту в текстових редакторах і на веб-сторінках. Мені неодноразово доводилося застосовувати навички розкодування «дитячих» шифрів (де кожній букві абетки відповідає якесь число чи символ) для читання важливих листів чи навіть власних старих текстів, або випробовувати різні програми для переведення одного кодування в інше.

     

    Сам по собі винахід абетки, яка передавала звуки (йдеться про фінікійську абетку, що розвинулась із протоабеток, створених для передавання іншомовних імен і слів у ієрогліфічних текстах) спричинив першу інформаційну революцію в ті часи, коли люди ще не мали самого поняття «інформації». Попри високу ціну матеріальних носіїв інформації, абетка та система запису чисел дозволили передавати те, що існувало в усній формі, максимально точно. А це значно спростило вивчення інших мов чи переклад текстів. Кожна наступна інформаційна революція (друга – винахід друкарства; третя – початок використання електрики, радіо та телеграфу; четверта – розвиток комп’ютерної техніки та цифрових технологій) значно здешевлювала, прискорювала та спрощувала процеси створення, накопичення і передавання інформації.

     

    Якщо говорити про комп’ ютерні системи, то вони використовують в основному «абетку» з двох символів – 0 та 1 , якими кодуються літери, символи та зображення. Цікаво, що до використання двійкової системи у комп’ютерних системах, вже багато років використовувалась «абетка» саме з двох символів – азбука Морзе. Вона була побудована таким чином, щоби забезпечити максимальну стійкість до помилок в умовах дуже нестійких каналів передавання інформації (дротовий телеграф, потім радіо).

     

    Обсяг інформації в «абетці» з двох символів вимірюється в бітах (це кількість символів у послідовності нулів та одиниць, тобто 10 – це два біти, 10100 – п’ять бітів), і обсяг інформації в «іншій» абетці теж можна трансформувати в біти. Біт можна також розглядати як відповідь на запитання – «так» чи «ні» – чи як позицію перемикача в електричному ланцюзі.

     

    Наприклад, якщо ми використовуємо кодування ASCII, де одній літері відповідатимуть вісім символів, тобто один байт (один байт містить вісім бітів), обсяг інформації тексту з 1024 знаків буде оцінений як 1024 байти, тобто один кілобайт інформації. Обсяг інформації у світі у 2007 році Мартін Гілберт і Прісцила Лопез оцінили на рівні 295 × 2 60 байтів (295 ексабайтів; ексабайт – це 10 18 байтів), засновуючи оцінки на технологічній спроможності збереження інформації; аналогічний показник за 1986 рік, за даними Вікіпедії, – 2,6 ексабайтів. Це дуже приблизні дані, проте масштаби збільшення обсягу інформації за ними оцінити можна.

     

    Такий обсяг інформації має сенс лише тоді, коли є можливість пошуку та передачі інформації; зі збільшенням обсягу зростає значення метаданих – тобто «етикеток», які містять дані про інші дані та інформацію. Процес створення даних має супроводжуватися їхньою коректною класифікацією та вказуванням адекватних метаданих.

     

    Розширення технологічних можливостей накопичення та передавання інформації потребувало розробки відповідної теорії. Така теорія була створена задовго до четвертої інформаційної революції (коли її змогли повною мірою застосувати): фундаментальна наука значно випереджає застосування, проте без неї неможливий технологічний розвиток.

     

    Наукову теорію інформації створив американський вчений Клод Шеннон. Початком цієї теорії вважають його роботу «Математична теорія зв’язку» ( «A Mathematical Theory of Communication»), що була опублікована у 1948 році в журналі Bell System Technical Journal , а у 1949-му видана окремою книжкою. Інформація розглядається як набір можливих повідомлень, що їх необхідно передати через канал із шумом. Потім приймач має відновити повідомлення з низькою ймовірністю похибки попри шум каналу передачі. Теорема Шеннона встановлює ліміт пропускної здатності каналу зв’язку – тобто обмежує швидкість безпомилкової передачі інформації. Обмеження цієї швидкості доводиться як математична теорема, і його не можна подолати застосуванням кодів для виправлення помилок. Важливим є доведення, що інформацію таки можливо передавати без помилок, хоч і з обмеженою швидкістю, навіть для дуже слабкого каналу зі значним шумом.

     

    Важливим досягненням математичної теорії інформації Шеннона було з’ясування того, що неважливо, яку саме інформацію передавати – числову, текстову, звукову, візуальну – бо вся вона може бути так чи інакше трансформована у послідовність нулів та одиниць. До цього для різних видів аналогової інформації розробляли і використовували різні типи каналів передачі (наприклад, аудіо- та відеоінформація передавалась у вигл яді електромагнітних хвиль, а не в числовій формі).

     

    Значну частину математичних основ теорії інформації (в тому числі формули з логарифмами, аналогічні формулам теорії інформації) в рамках теорії термодинаміки розробили Больцман та Ґіббз – це черговий приклад вражаючих можливостей застосування однакової математичної бази в дуже різних галузях.

     

    Математична теорія інформації використовує різні галузі математики, в тому числі булеву алгебру (така алгебра, операції з якої можна використовувати у логічних міркуваннях – прим. ред. ), теорію ймовірності, математичну статистику, а також теорію алгоритмів, комбінаторику, різні галузі фізики та електротехніки. Її використовують і в математичній та прикладній лінгвістиці, розпізнаванні образів, криптографії, біоінформатиці.

     

    Теорія Шеннона передбачає стандартну архітектуру системи передачі інформації: джерело інформації, передавач, канал інформації з похибками та перешкодами, приймач, отримувач інформації.

     

    Шуми та похибки каналу передачі розглядаються як невід’ємна характеристика системи передачі інформації – уникнення помилок неможливе, і завданням розробників таких систем є не намагатися за будь-яку ціну їх уникнути, а врахувати їхню наявність, мінімальним достатнім чином дублювати інформацію та створити систему її верифікації і коригування помилок.

     

    Цікавий приклад використання в теорії передавання інформації результатів нібито зовсім далекої галузі математики – пакування сфер (задача в тому, щоби знайти такий спосіб укладання куль у просторі, за якого кулі будуть займати найбільшу частину цього простору; класична постановка задачі – в евклідовому просторі – прим. ред.). 2016 року українська математикиня Марина В’язовська довела теорему про оптимальне пакування сфер у восьмивимірному просторі – і цей результат підходить для використання не тільки для пакування уявних восьмивимірних апельсинів, але й для передачі сигналів із коригуванням помилок. Із отриманого набору чисел початкову інформацію можна відтворити через спеціальний алгоритм (чотири перших числа – « значущі», чотири наступні – «технічні», або «контрольні», саме завдяки ним можна відтворити «пошкоджені» значущі).

     

    Сфера у восьмивимірному просторі – це множина наборів із восьми чисел. Передається один набір, проте з помилками, і можливі набори, отримані приймачем, утворюють так звану «сферу похибок». Сфери похибок не мають перетинатись, а їхня максимальна щільність дозволяє витрачати на передачу сигналу мінімум енергії. У цьому випадку використовуються саме восьмивимірні та 24-вимірні набори чисел, тобто простори саме тих розмірностей, для яких була доведена оптимальність пакування сфер (останній випадок також доведений нашою співвітчизницею, але в співавторстві).

     

    Те, що інформації стає більше щодня – незаперечний факт. Ще один – нам потрібна додаткова інформація, аби впорядкувати ту, що вже існує. Тож аби не розгубитися в цьому процесі, а радше захопитися його нестримним розвитком і зрозуміти його, ми запропонували вам розповідь про математичну теорію інформації та про вимірювання її обсягу. Дуже коротко та без формул. А далі вже – царина логарифмів, степеневих функцій та основи теорії ймовірностей і математичної статистики. Сподіваємось, комусь і цей шлях стане до вподоби.

    ТЕКСТ: Ірина Єгорченко
    Ілюстрації: Дар’я Скрибченко
    Статті
    Наука
    Екологічно чиста отрута: уривок з книжки «Зоологічна екскурсія супермаркетом»

    Чому краще утриматися від «дикого» промислу морепродуктів, особливо у водоймах, де цвіте вода?

    Наука
    Передумови приходу диктаторів до влади: Італія, Німеччина, РФ

    Що стало передумовами приходу диктаторів до влади на прикладі фашистської Італії, нацистської Німеччини та путінської росії? Розповідає співавтор і ведучий каналу «Історія Без Міфів» Владлен Мараєв.

    Людина
    Як кожен з нас може подякувати військовим і допомогти їм з адаптацією

    Як змінюється світосприйняття військових і що ми можемо зробити, аби висловити їм вдячність і допомогти в адаптації до мирного життя?

    Біологія
    Не тільки в історії. Який слід залишить війна в наших генах

    Як війни, голод та важкі психологічні травми залишають слід у геномі людини й чи можемо ми на це якось повпливати?

    Космос
    Що таке сонячні плями і чи впливають вони на людей

    Чи можуть спалахи на Сонці та магнітні бурі провокувати погане самопочуття в людей?

    Ідеї
    Пропаганда у російському кіно

    Як кіно стало частиною пропагандистської та політичної ідеології росії та чи можна якось дати цьому раду?

    Повідомити про помилку

    Текст, який буде надіслано нашим редакторам: