Encoding tamburină IT

În general, codare sau setul de caractere. - aceasta corespondență între un subset al numerelor întregi (de obicei consecutive) și un anumit set de caractere. Cheia aici este conceptul de caracter. Caracter poate fi o literă (sau nu pot) să fie, se poate potrivi cu sunetul de vorbire (sau să nu se potrivească) și poate fi reprezentat printr-un semn grafic (dar se poate face fără nici un fel a fost imagine vizibilă). Simbolul - un atom de sens, cea mai mică particulă indivizibilă de informații.

Astfel, latina „A“ și chirilic „A“ - acestea sunt caractere diferite, deoarece acestea sunt utilizate în diferite contexte și transporta informații diferite.

Crucial pentru orice codificare este suma acoperită de codul său și astfel de caractere. Deoarece textele sunt stocate în computer ca o secvență de octeți, cele mai multe codificări se încadrează în mod natural într-un singur octet, sau opt biți a codificării capabil nu mai mult de 256 de caractere și dublu-octet sau shestnadtsatibitnye a cărui capacitate poate ajunge la 65636 familiaritate.

ASCII - înainte de a trece la codificările de opt biți, este necesar să spun câteva cuvinte despre codificat dupa numele ASCII (American Standard Code pentru schimbul de informații) - codificate ca opt, dar care acoperă doar 128 de caractere și, prin urmare, sunt de conținut cu șapte biți semnificativi (Sr., al optulea bit în timp ce întotdeauna este egală cu zero). Importanța acestei codificare, inclusiv alfabetul latin, numere și semne de punctuație de bază, este neobișnuit de mare: aproape toată lumea (dimensiune mare) coduri sunt compatibile cu acesta, și anume, post pe prima lor 128 familiaritatea sunt aceleași personaje în același mod ...

KOI8. Cronologic, una dintre primele litere românești standarde de codificare a fost KOI8 calculatoare ( „cod de schimb de informații, un 8-bit“). Această codificare este folosit în timpurile preistorice sovietice pentru calculatoare ES EVM, și când la mijlocul anilor '80 a apărut prima versiune rusă a sistemului de operare UNIX, au moștenit această codificare de la „strămoșii“ lor. Ca urmare, KOI8 este acum una dintre codificările pe care trebuie să sprijine orice Rusă pagina web.

Ferestre-1251. Al doilea cel mai important în internetul românesc (și, desigur, primul dintre upotrebimo pe calculatoarele personale) codare - un set de caractere chirilice standard de Microsoft Windows, SR1251 prescurtată ( „CP“ înseamnă „Codul pagina“, „pagina de cod“). Toate aplicațiile Windows- care lucrează cu limba română trebuie să înțeleagă această codificare, fără traducere. Datorită prevalenței pentru Windows codare SR1251, cu KOI8 intră minimul absolut al codificări care trebuie să sprijine site-ul de limbă rusă.

Familie de 8859. Latin-1. O situație similară cu platforme concurente și sisteme de operare, și, în consecință, cu concurente de codificare incompatibile se observă și în alte limbi, folosind propriul alfabet latin sau alfabetul cu extensii. Organizația Internațională de Standardizare (Organizația pentru Standarde Internaționale, ISO) a încercat să aducă pentru codificarea de opt biți, creând o serie de ISO 8859 seturi de caractere care se extind tabela ASCII pentru litere latine cu diacritice și ligaturi (codificare ISO 8859-1), chirilic (ISO 8859-5), Arabă (ISO 8859-6), greacă (ISO 8859-7), precum și alte alfabete.

În cazul în care codificarea ISO 8859-5 pentru chirilic nu a prins, primul din această serie - codificarea ISO 8859-1, de asemenea, cunoscut sub numele latin-1 - a reușit să devină standardul acceptat pentru codificare „extindere“ a alfabetului latin. În această codificare include aproape toate caracterele, este utilizat în scris limbi din Europa de Vest - franceză, germană, spaniolă, etc.

Implementarea Unicode a condus la o schimbare în abordarea codificării tradiționale de 8-biți. Dacă specificați o codificare font este folosit pentru a, dar acum este dat de un tabel de corespondență între această codificare și Unicode. De fapt, codificarea pe 8 biți a apelat la prezentarea unui subset de Unicode. Este mult mai ușor de a crea programe care trebuie să lucreze cu mai multe codificări diferite: Acum, pentru a adăuga suport pentru o altă codificare, trebuie doar să adăugați mai mult de o conversie de masă la Unicode.

În viitorul apropiat un rol din ce în ce mai important în format special de Unicode (și ISO 10646), numit UTF-8. Această codificare „derivat“ folosește simboluri pentru a scrie octeții lanțuri de diferite lungimi (de la unu până la șase), care prin intermediul unui algoritm simplu convertit la codurile Unicode- și caractere mai frecvent utilizate corespund lanțuri scurte. Principalul avantaj al acestui format - un ASCII compatibil nu numai de valorile codului, ci și de numărul de biți pe simbol, pentru a codifica oricare dintre primele 128 de caractere în UTF-8 doar un singur octet (deși, de exemplu, pentru litere chirilice trebuie să aibă două byte).

Tabelele de mai jos se referă la codul utilizat pentru a indica pagina web de codificare a simbolurilor:

ferestre-1251 - Ferestre chirilic

KOI8-R - Encoding KOI8 pentru limba română