Попередня сторінка: 3. Кодування чисел
Наступна сторінка: 5. Вимірювання інформації
4.1.
АЗБУКА МОРЗЕ
Одним із перших цифрових способів передачі інформації став код Морзе. Код Морзе — це нерівномірний телеграфний код, де спосіб кодування літер алфавіту, цифр та інших символів подано певною комбінацією «крапок» і «тире». Так, наприклад, літера «А» позначається, як «.-», а літера «Б» — «—...».
Азбука, з якої формується зазначений код, була названа на честь американського винахідника Семюела Морзе, який придумав її в 1838 році. Телеграф і радіотелеграф спочатку використовували азбуку Морзе, пізніше почали застосовувати код Бодо та ASCII, які є більш зручними для автоматизації.
Дізнайтеся історичні відомості про азбуку Морзе та її винахідника
4.2.
КОДУВАННЯ СИМВОЛІВ У КОМП'ЮТЕРНІЙ ТЕХНІЦІ
Символи тексту людина розрізняє за накресленням. Наприклад, кожен з нас швидко визначить у тексті літеру «а», яким би шрифтом її не було набрано.
Якщо слідувати аналогії зі сприйняттям тексту людиною, то в комп’ютері потрібно зберігати зображення літер, потім з них складати слова і збе-
рігати зображення рядків. Зрозуміло, що цей спосіб неефективний, оскільки доведеться зберігати безліч зображень, хоча кількість літер, з яких їх складено, обмежена (це літери алфавіту тієї мови, якою подано текст).
Тому для комп’ютерного подання текстової інформації застосовується інший спосіб: символи алфавіту кодуються двійковими числами, а текст подається у вигляді набору чисел — кодів символів, що його складають.
Щоб такий набір чисел можна було декодувати, слід знати, де закінчується і де починається код кожного символу, а для цього, як було показано на прикладі чисел, необхідно перед кодуванням визначити потрібну для кодування кількість розрядів.
Тож яку довжину коду символу взяти, щоб закодувати всі символи, які можуть трапитися в тексті? Якщо це двійковий код довжиною 2 розряди, то з його допомогою можна буде закодувати алфавіт, що містить 4 символи, оскільки за цієї довжини коду існують чотири різні його комбінації.
Двійковий код довжиною 3 розряди дозволяє закодувати алфавіт, що містить 8 символів (рис. 4.1).
З допомогою двійкового коду завдовжки n розрядів можна закодувати алфавіт, що містить 2n символів.
Таким чином, щоб закодувати текст, слід обрати довжину коду, достатню для кодування потрібної кількості символів, і скласти таблицю, де буде вказано, який код якому символу відповідає. Такі таблиці вже складено, і називають їх наборами символів.
Сьогодні найпоширенішими є набори символів ASCII, Unicode («юні-код») і сумісні з ними.
Фрагмент розширеного набору символів ASCII наведено в таблиці нижче. У цьому наборі, як ви можете пересвідчитися, для кодування застосовують 8 розрядів. Розмір алфавіту, який можна закодувати з допомогою такого набору, становить 256 символів (пронумеровані десятковими цифрами від 0 до 255). Цього достатньо, щоб закодувати цифри, знаки пунктуації, латинські літери (великі й малі) та літери кирилиці (великі й малі).
Таблиця 4.1. Фрагменти набору символів ASCII та їхні коди
Так в даній таблиці представлено десяткове та двійкове подання символів. Наприклад, велика латинська літера А має десятковий код 65 і двійковий код 01000001.
У наборі ASCII перші 32 коди (з 0 по 31) відведені для операцій (перенесення рядка, скасування попередньої операції, подавання звукового сигналу). Ці коди мають сприйматися пристроєм виведення як команди.
Наступні коди, з 32 по 127, є інтернаціональними і відповідають символам латинського алфавіту, цифрам, знакам арифметичних операцій та знакам пунктуації.
Коди з 128 по 255 — національні, тобто в кодуваннях для різних мов тому самому коду відповідають різні символи.
Недолік такої таблиці кодування — неможливість закодувати текст, що містить фрагменти багатьма мовами. Розрізняють символи, що належать до алфавітів кирилиці. Це алфавіти української, російської, білоруської мов тощо. А також символи латиниці, що є символами алфавітів англійської та деяких західноєвропейських мов. Значно більшими є різноманіття ієрогліфів.
Щоб усунути це обмеження, в 1991 році було запропоновано стандарт кодування Unicode, який дозволяє використовувати в текстах будь-які символи будь-яких мов світу.
З використанням Unicode закодовано всі алфавіти відомих мов, зокрема і «мертвих» (єгипетські ієрогліфи, писемність майя, етруський алфавіт). Для мов, що мають кілька алфавітів або варіантів написання (наприклад, японська, індійська), закодовано всі варіанти. В Unicode внесено всі математичні, хімічні, музичні та інші наукові символьні позначення. Потенційна ємність Unicode така велика, що наразі використовується лише незначний відсоток доступних кодів символів.
Перші 128 символів у стандарті Unicode збігаються з таблицею ASCII.
Далі розміщено основні алфавіти сучасних мов. Вони містяться в першій частині таблиці, значення їхніх кодів не перевищують 216 = 65536.
Для українських і російських літер є кілька кодових таблиць, що різняться розташуванням символів. Найчастіше вам траплятимуться такі: KOI8-U, KOI8-R, Windows-1251, Code Page 866 (CP 866), ISO 8859. Тексти, створені з використанням однієї таблиці, неправильно відображаються у разі використання іншої. Саме це є причиною того, що інколи в браузері замість тексту можна побачити беззмістовний набір знаків.
З удосконаленням вебтехнологій вдосконалюється і робота браузерів, і останні версії браузера Google Chromе самостійно пристосовуються під кодування тексту сторінки, яка завантажується.
ВПРАВА 4.1
Завдання. Виконайте завдання у файлі BnpaBa_4_1.docx, використовуючи таблицю кодів азбуки Морзе.
ВПРАВА 4.2
Завдання. Виконайте завдання у файлі BnpaBa_4_2.docx, використовуючи таблицю ASCII кодів.
Контрольні запитання та завдання
1. Який підхід до кодування запропонував свого часу Семюел Морзе?
2. Який підхід застосовано до кодування текстової інформації в комп’ютерних технологіях?
3. Яку назву має стандартний набір, що складається з 256 символів?
4. Яку назву має стандарт кодування, що дозволяє здійснити кодування всіх алфавітів відомих мов?
Питання для роздумів
1*. Яку мінімальну довжину коду матиме повідомлення, подане за допомогою алфавіту з 65 символів?
2**. Чому азбука Морзе є нерівномірним кодом?
Завдання для досліджень
1*. Підготуйте повідомлення про використання на практиці різних способів кодування текстової інформації.
2*. Дізнайтеся, що таке стенографія і яке її призначення.
Це матеріал з підручника Інформатика 8 клас Казанцева, Стеценко (2021)
Наступна сторінка: 5. Вимірювання інформації