Інформація про новину
  • Переглядів: 265
  • Дата: 4-04-2021, 23:53
4-04-2021, 23:53

4. Кодування символів

Категорія: Інформатика

Попередня сторінка:  3. Кодування чисел
Наступна сторінка:   5. Вимірювання інформації

4.1.

АЗБУКА МОРЗЕ

Одним із перших цифрових способів передачі інформації став код Морзе. Код Морзе — це нерівномірний телеграфний код, де спосіб кодування літер алфавіту, цифр та інших символів подано певною комбінацією «крапок» і «тире». Так, наприклад, літера «А» позначається, як «.-», а літера «Б» — «—...».

Азбука, з якої формується зазначений код, була названа на честь американського винахідника Семюела Морзе, який придумав її в 1838 році. Телеграф і радіотелеграф спочатку використовували азбуку Морзе, пізніше почали застосовувати код Бодо та ASCII, які є більш зручними для автоматизації.

Дізнайтеся історичні відомості про азбуку Морзе та її винахідника

4.2.

КОДУВАННЯ СИМВОЛІВ У КОМП'ЮТЕРНІЙ ТЕХНІЦІ

Символи тексту людина розрізняє за накресленням. Наприклад, кожен з нас швидко визначить у тексті літеру «а», яким би шрифтом її не було набрано.

Якщо слідувати аналогії зі сприйняттям тексту людиною, то в комп’ютері потрібно зберігати зображення літер, потім з них складати слова і збе-

рігати зображення рядків. Зрозуміло, що цей спосіб неефективний, оскільки доведеться зберігати безліч зображень, хоча кількість літер, з яких їх складено, обмежена (це літери алфавіту тієї мови, якою подано текст).

Тому для комп’ютерного подання текстової інформації застосовується інший спосіб: символи алфавіту кодуються двійковими числами, а текст подається у вигляді набору чисел — кодів символів, що його складають.

Щоб такий набір чисел можна було декодувати, слід знати, де закінчується і де починається код кожного символу, а для цього, як було показано на прикладі чисел, необхідно перед кодуванням визначити потрібну для кодування кількість розрядів.

Тож яку довжину коду символу взяти, щоб закодувати всі символи, які можуть трапитися в тексті? Якщо це двійковий код довжиною 2 розряди, то з його допомогою можна буде закодувати алфавіт, що містить 4 символи, оскільки за цієї довжини коду існують чотири різні його комбінації.

Двійковий код довжиною 3 розряди дозволяє закодувати алфавіт, що містить 8 символів (рис. 4.1).

З допомогою двійкового коду завдовжки n розрядів можна закодувати алфавіт, що містить 2n символів.

Таким чином, щоб закодувати текст, слід обрати довжину коду, достатню для кодування потрібної кількості символів, і скласти таблицю, де буде вказано, який код якому символу відповідає. Такі таблиці вже складено, і називають їх наборами символів.

Сьогодні найпоширенішими є набори символів ASCII, Unicode («юні-код») і сумісні з ними.

Фрагмент розширеного набору символів ASCII наведено в таблиці нижче. У цьому наборі, як ви можете пересвідчитися, для кодування застосовують 8 розрядів. Розмір алфавіту, який можна закодувати з допомогою такого набору, становить 256 символів (пронумеровані десятковими цифрами від 0 до 255). Цього достатньо, щоб закодувати цифри, знаки пунктуації, латинські літери (великі й малі) та літери кирилиці (великі й малі).

Таблиця 4.1. Фрагменти набору символів ASCII та їхні коди

Так в даній таблиці представлено десяткове та двійкове подання символів. Наприклад, велика латинська літера А має десятковий код 65 і двійковий код 01000001.

У наборі ASCII перші 32 коди (з 0 по 31) відведені для операцій (перенесення рядка, скасування попередньої операції, подавання звукового сигналу). Ці коди мають сприйматися пристроєм виведення як команди.

Наступні коди, з 32 по 127, є інтернаціональними і відповідають символам латинського алфавіту, цифрам, знакам арифметичних операцій та знакам пунктуації.

Коди з 128 по 255 — національні, тобто в кодуваннях для різних мов тому самому коду відповідають різні символи.

Недолік такої таблиці кодування — неможливість закодувати текст, що містить фрагменти багатьма мовами. Розрізняють символи, що належать до алфавітів кирилиці. Це алфавіти української, російської, білоруської мов тощо. А також символи латиниці, що є символами алфавітів англійської та деяких західноєвропейських мов. Значно більшими є різноманіття ієрогліфів.

Щоб усунути це обмеження, в 1991 році було запропоновано стандарт кодування Unicode, який дозволяє використовувати в текстах будь-які символи будь-яких мов світу.

З використанням Unicode закодовано всі алфавіти відомих мов, зокрема і «мертвих» (єгипетські ієрогліфи, писемність майя, етруський алфавіт). Для мов, що мають кілька алфавітів або варіантів написання (наприклад, японська, індійська), закодовано всі варіанти. В Unicode внесено всі математичні, хімічні, музичні та інші наукові символьні позначення. Потенційна ємність Unicode така велика, що наразі використовується лише незначний відсоток доступних кодів символів.

Перші 128 символів у стандарті Unicode збігаються з таблицею ASCII.

Далі розміщено основні алфавіти сучасних мов. Вони містяться в першій частині таблиці, значення їхніх кодів не перевищують 216 = 65536.

Для українських і російських літер є кілька кодових таблиць, що різняться розташуванням символів. Найчастіше вам траплятимуться такі: KOI8-U, KOI8-R, Windows-1251, Code Page 866 (CP 866), ISO 8859. Тексти, створені з використанням однієї таблиці, неправильно відображаються у разі використання іншої. Саме це є причиною того, що інколи в браузері замість тексту можна побачити беззмістовний набір знаків.

З удосконаленням вебтехнологій вдосконалюється і робота браузерів, і останні версії браузера Google Chromе самостійно пристосовуються під кодування тексту сторінки, яка завантажується.

ВПРАВА 4.1

Завдання. Виконайте завдання у файлі BnpaBa_4_1.docx, використовуючи таблицю кодів азбуки Морзе.

ВПРАВА 4.2

Завдання. Виконайте завдання у файлі BnpaBa_4_2.docx, використовуючи таблицю ASCII кодів.

Контрольні запитання та завдання

1. Який підхід до кодування запропонував свого часу Семюел Морзе?

2. Який підхід застосовано до кодування текстової інформації в комп’ютерних технологіях?

3. Яку назву має стандартний набір, що складається з 256 символів?

4. Яку назву має стандарт кодування, що дозволяє здійснити кодування всіх алфавітів відомих мов?

Питання для роздумів

1*. Яку мінімальну довжину коду матиме повідомлення, подане за допомогою алфавіту з 65 символів?

2**. Чому азбука Морзе є нерівномірним кодом?

Завдання для досліджень

1*. Підготуйте повідомлення про використання на практиці різних способів кодування текстової інформації.

2*. Дізнайтеся, що таке стенографія і яке її призначення.

 

 

Це матеріал з підручника Інформатика 8 клас Казанцева, Стеценко (2021)

 Попередня сторінка:  3. Кодування чисел
Наступна сторінка:   5. Вимірювання інформації^