Вимірювання інформації. Об’ємний підхід

Питання про вимірювання кількості інформації є дуже важливим як для науки, так і для практики. Справді, інформація є предметом нашої діяльності: ми її бережемо, передаємо, приймаємо, обробляємо. Тому важливо домовитися про спосіб її виміру, що дозволяє, наприклад, відповісти на питання: чи достатньо місця на носії, щоб розмістити потрібну нам інформацію, або скільки часу буде потрібно, щоб передати її за наявним каналу зв’язку. Величина, яка нас в цих ситуаціях цікавить, називається обсягом інформації. У такому випадку говорять про об’ємному підході до вимірювання інформації.
Як виміряти обсяг інформації
Обсяг інформації не пов’язаний з її змістом.
Коли говорять про обсяг інформацією, то мають на увазі розмір тексту в тому алфавіті, за допомогою якого ця інформація представлена.

Обсяг тексту в друкованому виданні – книзі, журналі, газеті – зазвичай вимірюють в сторінках. У такому випадку ми вважаємо, що, наприклад, книга в 500 сторінок містить більше інформації, ніж книга в 250 сторінок.

А як ви думаєте, чи завжди книга в 500 сторінок містить в два рази більше інформації, ніж книга в 250 сторінок? Звичайно, ні! Адже різні книги можуть мати різні формати листів. Формат листа – це його стандартний розмір. Існують різні формати друкованого аркуша. Крім того, різними бувають величина шрифту, довжина рядка, межстрочное відстань. Дуже часто дитячі книги друкуються великим шрифтом з великими інтервалами між рядками, та ще й з великою кількістю картинок. Найчастіше зміст такої книги, що складається з декількох десятків сторінок, можна передрукувати дрібним шрифтом на 2-3 сторінках. Але оскільки текст в обох випадках один і той же, то і кількість інформації має бути однаковим. Значить, вимір інформації в сторінках не є універсальним.

Кількість сторінок в друкованому виданні визначає витрату паперу, а не обсяг інформації. Розумніше вимірювати обсяг інформації, укладений в тексті, кількістю знаків цього тексту. Знаки – це насамперед букви з алфавіту тієї мови, на якому написана книга. Але в текст входять також і знаки, дужки, цифри. У тексті можуть використовуватися літери інших алфавітів, наприклад англійської та грецької. Пробіл між словами – теж знак. Наприклад, на сторінці формату А4 (21 см х 30 см) при розмірі шрифту (кегль), рівному 12 пунктам (стандартним одиницям), і одинарному інтервалі між рядками поміщається текст обсягом приблизно 4000 знаків.
Визначенням обсягу інформації в знаках часто користуються у видавничій практиці. Наприклад, журналісту може бути дано обмеження на обсяг статті в 40000 знаків.
Об’ємний спосіб вимірювання інформації називають ще алфавітним підходом.

Обсяг інформації в електронному повідомленні
Вище ми говорили про телеграфному коді Бодо. У ньому кожна буква алфавіту кодується п’ятизначним двійковим кодом. У російській алфавіті 32 літери (не рахуючи букви е). З базового курсу інформатики ви знаєте, що якщо за допомогою / -розрядним двійкового коду можна закодувати алфавіт, що складається з N символів, то ці величини пов’язані між собою за формулою:
2i = N.
Оскільки 25 = 32, то всі російські букви можна закодувати всілякими пятіразрядний двійковими кодами від 00000 до 11111. Русский телеграфний апарат містить 32 клавіші з літерами. Буква «е» пропускається, замість неї є більше потрібна клавіша «пробіл». Розділові знаки передаються словами: «зпт», «точ». Таким чином, телеграфний апарат при введенні переводить російський текст в двійковий код, кількість символів в якому в 5 разів більше, ніж в початковому тексті.
Весь англійський алфавіт, що складається з 26 букв, також можна закодувати пятіразрядний двійковим кодом. На відміну від російського алфавіту, залишається ще 6 вільних кодів, які можна використовувати для пробілу і п’яти розділових знаків.
З базового курсу інформатики вам відомо, що в комп’ютерах використовується двійкове кодування інформації. Для двійкового представлення текстів в комп’ютері найчастіше використовується рівномірний восьмирозрядний код. З його допомогою можна закодувати алфавіт з 256 символів, оскільки 256 = 28. У стандартну кодову таблицю (наприклад, ASCII) поміщаються всі необхідні символи: англійські і російські великі та малі літери, цифри, розділові знаки, знаки арифметичних операцій, всілякі дужки та ін .

У двійковому коді одна двійковий розряд несе одну одиницю інформації, яка називається 1 біт.
При довічним кодуванні обсяг інформації, виражений в бітах, дорівнює довжині двійкового коду, в якому інформація представлена.
Більш великою одиницею виміру інформації є байт: 1 байт = 8 бітів.
Інформаційний обсяг тексту в пам’яті комп’ютера вимірюється в байтах. Він дорівнює кількості знаків у запису тексту.
Одна сторінка тексту на аркуші формату А4 кегля 12 з одинарним інтервалом між рядками (див. Приклад вище) в комп’ютерному поданні матиме обсяг приблизно 4000 байтів, тому що на ній поміщається приблизно 4000 знаків.
Крім біта і байти, для виміру інформації використовуються і більш великі одиниці:
1 Кб (кілобайт) = 210 байт = 1024 байти;
1 Мб (мегабайт) = 210 КБ = 1024 Кб;
1 Гб (гігабайт) = 210 Мб = 1024 Мб.
Обсяг тієї ж сторінки тексту буде рівним приблизно 3,9 Кб. А книга з 500 таких сторінок займе в пам’яті комп’ютера приблизно 1,9 Мб.

Посилання на основну публікацію