Представлення інформації, мови, кодування

З базового курсу вам відомо:
– Історичний розвиток людини, формування людського суспільства пов’язано з розвитком мови, з появою і поширенням мов. Мова – це знакова система для подання та передачі інформації.
– Люди зберігають свої знання в записах на різних носіях. Завдяки цьому знання передаються не тільки в просторі, але і в часі – від покоління до покоління.
– Мови бувають природні, наприклад російська, китайська, англійська, і формальні, наприклад математична символіка, нотна грамота, мови програмування.
Писемність та кодування інформації
Під словом «кодування» розуміють процес подання інформації, зручний для її зберігання та / або передачі. Отже, запис тексту на природній мові можна розглядати як спосіб кодування мови за допомогою графічних елементів (букв, ієрогліфів). Записаний текст є кодом, яке б містило в собі зміст промови, т. Е. Інформацію.
Процес читання тексту – це зворотний по відношенню до листа процес, при якому письмовий текст перетвориться в усне мовлення. Читання можна назвати декодуванням письмового тексту. Схематично ці два процеси зображені на рис. 1.1.
Схема передачі інформації через писемність
Схема на рис. 1.1 типова для всіх процесів, пов’язаних з передачею інформації.
Цілі і способи кодування
А тепер звернемо увагу на те, що може існувати багато способів кодування одного і того ж тексту на одному і тому ж мовою. Наприклад, російський текст ми звикли записувати за допомогою російського алфавіту. Але те ж саме можна зробити, використовуючи латинський алфавіт. Іноді так доводиться поступати, відправляючи SMS по мобільному телефону, на якому немає російських букв, або електронного листа російською мовою за кордон, якщо у адресата немає русифікованого програмного забезпечення. Наприклад, фразу «Здрастуй, дорогий Саша!» Доводиться писати так: «Zdravstvui, dorogoi Sasha!».
Існує безліч способів кодування. Наприклад, стенографія – швидкий спосіб записи мовлення. Нею володіють лише деякі спеціально навчені люди – стенографісти. Вони встигають записувати текст синхронно з промовою доповідача людини. У стенограмі один значок позначає ціле слово чи поєднання букв.
Розшифрувати (декодувати) стенограму може тільки сам стенографіст.

Там написано наступне: «Говорити вміють всі люди на світі. Навіть у самих примітивних племен Тобто мова.
Мова – це щось загальне і саме людське, що є на світі ».
Можна придумати й інші способи кодування.
Наведені приклади ілюструють наступне важливе правило: для кодування однієї і тієї ж інформації можуть бути використані різні способи; їх вибір залежить від ряду обставин: цілі кодування, умов, наявних коштів. Якщо треба записати текст в темпі мови, робимо це за допомогою стенографії; якщо треба передати текст за кордон, користуємося латинським алфавітом; якщо треба представити текст у вигляді, зрозумілому для грамотного російської людини, записуємо його за правилами граматики російської мови.
Ще одна важлива обставина: вибір способу кодування інформації може бути пов’язаний з передбачуваним способом її обробки. Обговоримо це на прикладі представлення чисел – кількісної інформації. Використовуючи російський алфавіт, можна записати число “тридцять п’ять». Використовуючи ж алфавіт арабської десяткової системи числення, пишемо: 35. Нехай вам треба зробити обчислення. Скажіть, яка запис зручніше для виконання розрахунків: «тридцять п’ять помножити на сто двадцять сім» або «35 х 127»? Очевидно, що для перемноження багатозначних чисел ви будете користуватися другим записом.
Зауважимо, що дві ці записи, еквівалентні за змістом, використовують різні мови: перша – природний російську мову, друга – формальна мова математики, що не має національної приналежності. Перехід від уявлення природною мовою до подання на формальній мові можна також розглядати як кодування. Людині зручно використовувати для кодування чисел десяткову систему числення, а комп’ютеру – двійкову систему.

Широко використовуваними в інформатиці формальними мовами є мови програмування.
У деяких випадках виникає потреба засекречування тексту повідомлення або документа, для того щоб його не змогли прочитати ті, кому не належить. Це називається захистом від несанкціонованого доступу. У такому випадку секретний текст шифрується. У давні часи шифрування називалося тайнописом. Шифрування являє собою процес перетворення відкритого тексту в зашифрований, а дешифрування – процес зворотного перетворення, при якому відновлюється вихідний текст. Шифрування – це теж кодування, але із засекреченим методом, відомим тільки джерелу і адресату. Методами шифрування займається наука криптографія.

Історія технічних способів кодування інформації
З появою технічних засобів зберігання і передачі інформації виникли нові ідеї і прийоми кодування. Першим технічним засобом передачі інформації на відстань став телеграф, винайдений в 1837 році американцем Семюелем Морзе. Телеграфне повідомлення – це послідовність електричних сигналів, що передається від одного телеграфного апарату по проводах до іншого телеграфному апарату. Ці технічні обставини призвели Морзе до ідеї використання лише двох видів сигналів – короткого і довгого – для кодування повідомлення, переданого по лініях телеграфного зв’язку.
Такий спосіб кодування отримав назву азбуки Морзе. У ній кожна буква алфавіту кодується послідовністю коротких сигналів (точок) і довгих сигналів (тире). Букви відокремлюються один від одного паузами – відсутністю сигналів.
У таблиці на рис. 1.3 показана азбука Морзе стосовно до російського алфавіту. Спеціальних знаків пунктуації в ній немає. Їх зазвичай записують словами: «точ» – точка, «зпт» – кома і т. П.

Самим знаменитим телеграфним повідомленням є сигнал лиха «SOS» (Save Our Souls – врятуйте наші душі). Ось як він виглядає в коді азбуки Морзе: • • • – – – • • •
Три точки позначають букву S, три тире – букву О. Дві паузи відділяють букви один від одного.
Характерною особливістю азбуки Морзе є змінна довжина коду різних букв, тому код Морзе називають нерівномірним кодом. Букви, які зустрічаються в тексті частіше, мають більш короткий код, ніж рідкісні літери. Наприклад, код букви «Е» – одна точка, а код літери «ред» складається з шести знаків. Навіщо так зроблено? Щоб скоротити довжину всього повідомлення. Але через змінної довжини коду букв виникає проблема відділення букв один від одного в тексті. Тому доводиться для розділення використати паузу (пропуск). Отже, телеграфний алфавіт Морзе є потрійним, оскільки в ньому використовується три знаки: крапка, тире, пропуск.
Рівномірний телеграфний код був винайдений французом Жаном Морісом Бодо в кінці XIX століття. У ньому використовувалося всього два види сигналів. Неважливо, як їх назвати: точка і тире, плюс і мінус, нуль і одиниця. Це два відмінних один від одного електричних сигналу.
У коді Бодо довжина кодів всіх символів алфавіту однакова і дорівнює п’яти. У такому випадку не виникає проблеми відділення букв один від одного: кожна п’ятірка сигналів – це знак тексту.
Код Бодо – це перший в історії техніки спосіб двійкового кодування інформації. Завдяки ідеї Бодо вдалося автоматизувати процес передачі і друку букв. Був створений клавішний телеграфний апарат. Натискання клавіші з певною буквою виробляє відповідний пятіім-пульсная сигнал, який передається по лінії зв’язку. Приймаючий апарат під впливом цього сигналу друкує ту ж букву на паперовій стрічці.
З базового курсу інформатики вам відомо, що в сучасних комп’ютерах для кодування текстів також застосовується рівномірний двійковий код. Проблеми кодування інформації в комп’ютері і при передачі даних по мережі ми розглянемо трохи пізніше.

Посилання на основну публікацію