sexta-feira, 29 de maio de 2009

Bits, Bytes e Codificações (ANCII - ANSI - UNICODE)

Bits

Ele é a menor unidade de medida na computação, e corresponde aos impulsos elétricos que os computadores entendem com 0 e 1. Ou seja, eles são os impulsos elétricos que para nós seriam os binários.
O Bit mostra se o computador irá ler (1) ou ele irá ignorar (0) uma determinada informação, e também é muito usado nas codificações.

Bytes

Ele corresponde a um conjunto de 8 bits (octeto) divididos em 2 partes de 4 (4 bits + 4 bits) cada 4 bits desses são chamados de nibble ou semi octeto.
Ele é mais usado para declarar conjuntos de bits tanto nas codificações quanto em armazenar sequências de bits.

Codificações

A memória do computador conserva todos os dados sob forma numérica. Não existe método para armazenar diretamente os caracteres. Assim, é preciso que se estabeleça qual a sequência de bits que corresponde cada caractere. Ou seja, deve-se estabelecer uma codificação em sequência de bit’s para cada um desses caracteres.

ASCII

American Standard Code for Information Interchange ou Código Padrão Americano para Intercâmbio de Informações.
Fazia uma correspondência entre números e os grafemas básicos da ortografia inglesa.
O código ASCII básico é capaz de incluir até 128 caracteres na sua versão de 7 bits...(0 à 127). Os códigos 0 à 31 não são caráteres. Chama-se Caráteres de Controle porque permitem fazer ações como: Regresso à linha (CR).
Essa tabela tinha um bom funcionamento para tratar textos em inglês, mas deixava a desejar na representação de textos em português, por exemplo, pois não considerava os grafemas com diacríticos da nossa ortografia como: á, é, ô, ç, ü, etc.
O código ASCII foi estendido à 8 bits (1 byte) para poder codificar mais caráteres incluindo assim 256 caracteres.
Essa tabela possui todos os caracteres considerados pela tabela anterior de 7 bits, mais uma expansão que resolveu vários problemas de representação como, por exemplo, os grafemas com diacríticos da língua portuguesa por incluir caracteres acentuados.
Suas limitações são de só poder escrever até 128 ou 256 caracteres, pois existem alfabetos que possuem cerca de 10.000 caracteres (chinês , coreano, Japonês) e adequado somente ao ocidente.

ANSI

American National Standard
Ele é uma modificação do ASCII, pois o ASCII só era adequado aos idiomas do ocidente, com isso adicionaram ao ASCII o Latim 1 europeu facilitando o seu uso em todo mundo.
E o que seria esse Latim 1?
Latim 1 é um padrão de códigos europeu que possuía símbolos que hoje em sua maioria são muito usados por nós como por exemplo: @.
Apesar de ser um tipo de codificação atual, ele tende a ser substituído pelo UNICODE.

UNICODE

Unicode Standard
Veio para suprir a carência do ASCII e ANSI.
É um tipo de codificação capaz de incluir todos os idiomas e símbolos.
Desenvolvido pela International Standards Organization (ISO) com possibilidade para 65.536 caracteres distintos e é capaz de trabalhar com 16 bits.
A tabela Unicode abrange os mais variados sistemas de escrita como latino, grego, cirílico, hebraico, árabe, japonês, chinês, etc., além de considerar símbolos matemáticos, musicais, de moeda, etc., e é compatível com o código ASCII.
Tende a ser a codificação do futuro, pois inclui representações para marcas de pontuação, símbolos matemáticos e dingbats, com espaço para expansão futura. E porque ele estabelece um código exclusivo para cada caractere em cada script.

Nenhum comentário:

Postar um comentário