Apa Perbedaan Antara ASCII dan Teks Unicode?
ASCII dan Unicode adalah standar yang mengacu pada representasi digital teks, khususnya karakter yang menyusun teks. Namun, kedua standar tersebut sangat berbeda, dengan banyak properti yang mencerminkan urutan pembuatannya masing-masing.
Amerika Versus Alam Semesta
The American Standard Code for Information Interchange (ASCII) atau dalam bahasa indonesia Kode Standar Amerika untuk Pertukaran Informasi, tidak mengejutkan, melayani audiens Amerika, menulis dalam alfabet Inggris. Ini berhubungan dengan huruf tanpa aksen, seperti A-Z dan a-z, ditambah sejumlah kecil simbol tanda baca dan karakter kontrol.
Secara khusus, tidak ada cara untuk merepresentasikan kata pinjaman yang diadopsi dari bahasa lain, seperti café di ASCII, tanpa mengartikannya dengan mengganti karakter beraksen (mis., Cafe). Ekstensi ASCII yang dilokalkan dikembangkan untuk memenuhi kebutuhan berbagai bahasa, tetapi upaya ini membuat interoperabilitas menjadi canggung dan jelas memperluas kemampuan ASCII.
Sebaliknya, Universal Coded Character Set (Unicode) terletak di ujung skala ambisi. Unicode berupaya untuk memenuhi sistem penulisan dunia sebanyak mungkin, sejauh mencakup bahasa kuno dan kumpulan simbol ekspresif favorit semua orang, emoji.
Kumpulan Karakter atau Pengodean Karakter?
Sederhananya, himpunan karakter adalah pilihan karakter (mis., A-Z) sedangkan pengkodean karakter adalah pemetaan antara himpunan karakter dan nilai yang dapat direpresentasikan secara digital (misalnya, A = 1, B = 2).
Standar ASCII secara efektif adalah keduanya: ini mendefinisikan kumpulan karakter yang diwakilinya dan metode untuk memetakan setiap karakter ke nilai numerik.
Sebaliknya, kata Unicode digunakan dalam beberapa konteks berbeda dengan arti yang berbeda. Anda dapat menganggapnya sebagai istilah yang mencakup semua, seperti ASCII, untuk merujuk ke kumpulan karakter dan sejumlah pengkodean. Namun, karena ada beberapa pengkodean, istilah Unicode sering digunakan untuk merujuk pada kumpulan karakter secara keseluruhan, bukan bagaimana mereka dipetakan.
Ukuran
Karena cakupannya, Unicode mewakili lebih banyak karakter daripada ASCII. ASCII standar menggunakan rentang 7-bit untuk menyandikan 128 karakter berbeda. Unicode, di sisi lain, sangat besar sehingga kita perlu menggunakan terminologi yang berbeda hanya untuk membicarakannya!.
Unicode melayani 1.111.998 poin kode yang dapat dialamatkan. Titik kode secara kasar dianalogikan dengan ruang yang disediakan untuk karakter, tetapi situasinya jauh lebih rumit daripada saat Anda mulai mempelajari detailnya!.
Perbandingan yang lebih berguna adalah berapa banyak skrip (atau sistem penulisan) yang saat ini didukung. Tentu saja, ASCII hanya menangani alfabet Inggris, pada dasarnya skrip Latin atau Romawi. Versi Unicode yang diproduksi pada tahun 2020 melangkah lebih jauh: ini mencakup dukungan untuk total 154 skrip.
Penyimpanan
Rentang 7-bit ASCII berarti bahwa setiap karakter disimpan dalam satu byte 8-bit; bit cadangan tidak digunakan dalam ASCII standar. Hal ini membuat penghitungan ukuran menjadi sepele: panjang teks, dalam karakter, adalah ukuran file dalam byte.
$ echo -n 'Hello, world' > foo
Untuk memeriksa bahwa teks ada dalam pengkodean ASCII, kita dapat menggunakan file command:
$ file foo
foo: ASCII text, with no line terminators
Terakhir, untuk mendapatkan jumlah pasti byte yang ditempati file, kami menggunakan perintah stat:
$ stat -f%z foo
12
Karena standar Unicode menangani rentang karakter yang jauh lebih besar, file Unicode secara alami membutuhkan lebih banyak ruang penyimpanan. Berapa tepatnya tergantung pada pengkodean.
Mengulangi set perintah yang sama dari sebelumnya, menggunakan karakter yang tidak dapat direpresentasikan dalam ASCII, memberikan hal berikut:
$ echo -n '€' > foo
$ file foo
foo: UTF-8 Unicode text, with no line terminators
$ stat -f%z foo
3
Karakter tunggal itu menempati 3 byte dalam file Unicode. Perhatikan bahwa bash secara otomatis membuat file UTF-8 karena file ASCII tidak dapat menyimpan karakter yang dipilih (€). UTF-8 sejauh ini merupakan pengkodean karakter yang paling umum untuk Unicode; UTF-16 dan UTF-32 adalah dua pengkodean alternatif, tetapi penggunaannya jauh lebih jarang.
UTF-8 adalah pengkodean lebar-variabel, yang berarti menggunakan jumlah penyimpanan yang berbeda untuk titik kode yang berbeda. Setiap titik kode akan menempati antara satu dan empat byte, dengan maksud bahwa karakter yang lebih umum memerlukan lebih sedikit ruang, menyediakan jenis kompresi bawaan. Kerugiannya adalah bahwa menentukan persyaratan panjang atau ukuran dari suatu potongan teks menjadi jauh lebih rumit.
ASCII Adalah Unicode, tetapi Unicode Bukan ASCII
Untuk kompatibilitas mundur, 128 titik kode Unicode pertama mewakili karakter ASCII yang setara. Karena UTF-8 menyandikan masing-masing karakter ini dengan satu byte, teks ASCII apa pun juga merupakan teks UTF-8. Unicode adalah superset dari ASCII.
Namun, seperti yang ditunjukkan di atas, banyak file Unicode tidak dapat digunakan dalam konteks ASCII. Karakter apa pun yang di luar batas akan ditampilkan dengan cara yang tidak terduga, seringkali dengan karakter pengganti yang sama sekali berbeda dari yang dimaksudkan.
Penggunaan Modern
Untuk sebagian besar tujuan, ASCII sebagian besar dianggap sebagai standar warisan. Bahkan dalam situasi yang hanya mendukung skrip Latin, di mana dukungan penuh untuk kompleksitas Unicode tidak diperlukan, misalnya biasanya lebih nyaman menggunakan UTF-8 dan memanfaatkan kompatibilitas ASCII-nya.
Secara khusus, halaman web harus disimpan dan dikirim menggunakan UTF-8, yang merupakan default untuk HTML5. Ini berbeda dengan web sebelumnya, yang menangani ASCII secara default sebelum digantikan oleh Latin 1.
Standar yang Berubah
Revisi terakhir ASCII terjadi pada tahun 1986.
Sebaliknya, Unicode terus diperbarui setiap tahun. Skrip, karakter baru, dan, khususnya, emoji baru ditambahkan secara teratur. Dengan hanya sebagian kecil dari alokasi ini, set karakter lengkap kemungkinan akan tumbuh dan tumbuh di masa mendatang.
ASCII melayani tujuannya selama beberapa dekade, tetapi Unicode sekarang telah secara efektif menggantikannya untuk semua tujuan praktis selain sistem lama. Unicode lebih besar dan, karenanya, lebih ekspresif. Ini mewakili upaya kolaboratif di seluruh dunia dan menawarkan fleksibilitas yang jauh lebih besar, meskipun dengan mengorbankan beberapa kerumitan.
ASCII melayani tujuannya selama beberapa dekade, tetapi Unicode sekarang telah secara efektif menggantikannya untuk semua tujuan praktis selain sistem lama. Unicode lebih besar dan, karenanya, lebih ekspresif. Ini mewakili upaya kolaboratif di seluruh dunia dan menawarkan fleksibilitas yang jauh lebih besar, meskipun dengan mengorbankan beberapa kerumitan.