segunda-feira, 6 de julho de 2009

Manuscrito ACM

Codificações - Parte 2

Desta vez mostrarei os UTF(Formato de transformação Unicode).

UTF-7 (Unicode Transformation Format 7 bits)

UTF-7 não possui tamanho fixo para vários pontos de código. Utiliza caracteres do ASCII(7 bits) para representar textos em unicode. Usado normalmente em e-mails.

UTF-8 (Unicode Transformation Format 8 bits)

UTF-8 não possui tamanho fixo para vários pontos de código. Pode representar qualquer caracter universal padrão do Unicode, sendo também compatível com o ASCII(7 bits). Ele vem sendo adotado lentamente como tipo de codificação padrão para e-mail, páginas web e outros locais onde os caracteres são armazenados.

UTF-16 (Unicode Transformation Format 16 bits)

UTF-16 É uma codificação de caracteres que provê uma maneira de representar os diversos caracteres abstratos, presentes no Unicode e no ISO/IEC 10646, como uma série de palavras (neste caso, de 16-bits), para então poder ser armazenados ou transmitidos por uma rede. A codificação UTF-16 é oficialmente definida no Anexo Q do padrão ISO/IEC 10646-1.

ISO/IEC 10646

A norma intenacional ISO/IEC 10646 define o Conjunto Universal de Caracteres (do inglês Universal Character Set, ou somente UCS) como uma codificação de caracteres. Ela contém em torno de 100.000 códigos identificados por um um nome não ambíguo, que representam símbolos como letras, números e ideogramas.

UTF-32 (Unicode Transformation Format 32 bits) ou UCS-4 (Conjunto Universal de Caracteres)
UTF-32 ou UCS-4 são nomes alternativos para o método de codificação de caracteres, usando a quantidade fixa de exatamente 32 bits para cada caractere Unicode.

Ele pode ser considerado como a forma de codificação mais simples, como todos os outros UTF possui codificação de comprimento variável para vários pontos de código.

No entanto, o UTF-32 usa 4 bytes para cada caractere, que é considerado ineficiente. Especificamente, caracteres que não pertencem ao PBM(plano básico multilingual) são tão raros em quase todos os textos que que eles podem ser considerados como pouco importantes para discussões importantes. Isto significa que UTF-32 é geralmente pelo menos o dobro ou quatro vezes maios que o tamanho normal das outras codificações.

Por esses conceitos serem aparentemente simples, porém quando pesquisados a fundo são muito complexos, resolvi buscar conceitos básicos e simples e fazer uma breve explicação sobre cada um deles.

E como é de praxe... um conversor.
http://macchiato.com/unicode/convert.html

Fonte:
http://msdn.microsoft.com/pt-br/library/zs0350fy.aspx
http://pt.wikipedia.org/wiki/UTF-7
http://pt.wikipedia.org/wiki/UTF-8
http://pt.wikipedia.org/wiki/UTF-16
http://pt.wikipedia.org/wiki/UTF-32/UCS-4
http://pt.wikipedia.org/wiki/ISO/IEC_10646

E-mail/Msn/Orkut: oguh-headshot@hotmail.com

Dúvidas/Sugestões/Idéias/ e Novidades sobre o que virá