ASCII, UTF-8, ISO-8859 ... Es posible que haya visto estos monikers extraños flotando alrededor, pero qué hacer en realidad quieren decir? Siga leyendo mientras explicamos qué es la codificación de caracteres y cómo estos acrónimos se relacionan con el texto plano que vemos en la pantalla.
Cuando hablamos de lenguaje escrito, hablamos de que las letras son los componentes básicos de las palabras, que luego construye oraciones, párrafos, etc. Las letras son símbolos que representan sonidos. Cuando hablas de lenguaje, estás hablando de grupos de sonidos que se unen para formar algún tipo de significado. Cada sistema de lenguaje tiene un conjunto complejo de reglas y definiciones que rigen esos significados. Si tiene una palabra, es inútil a menos que sepa de qué idioma es y lo usa con otras personas que hablan ese idioma.
(Comparación de scripts de Grantha, Tulu y Malayalam, Imagen de Wikipedia)
En el mundo de las computadoras, usamos el término "carácter". Un personaje es una especie de concepto abstracto, definido por parámetros específicos, pero es la unidad fundamental del significado. La 'A' latina no es lo mismo que una 'alfa' griega o una 'alif' árabe porque tienen contextos diferentes, son de idiomas diferentes y tienen pronunciaciones ligeramente diferentes, por lo que podemos decir que son caracteres diferentes. La representación visual de un personaje se llama "glifo" y los diferentes conjuntos de glifos se llaman fuentes. Los grupos de caracteres pertenecen a un "conjunto" o un "repertorio".
Cuando escribe un párrafo y cambia la fuente, no está cambiando los valores fonéticos de las letras, está cambiando su apariencia. Es solo cosmético (¡pero no sin importancia!). Algunos idiomas, como el egipcio antiguo y el chino, tienen ideogramas; estos representan ideas completas en lugar de sonidos, y sus pronunciaciones pueden variar a lo largo del tiempo y la distancia. Si sustituyes un personaje por otro, estás sustituyendo una idea. Es más que solo cambiar letras, está cambiando un ideograma.
(Imagen de Wikipedia)
Cuando escribe algo en el teclado o carga un archivo, ¿cómo sabe la computadora qué mostrar? Para eso está la codificación de caracteres. El texto en su computadora no es en realidad letras, es una serie de valores alfanuméricos emparejados. La codificación de caracteres actúa como una clave para la que los valores se corresponden con los caracteres, al igual que la ortografía dicta los sonidos que corresponden a cada letra. El código Morse es un tipo de codificación de caracteres. Explica cómo los grupos de unidades largas y cortas, como los pitidos, representan caracteres. En el código Morse, los caracteres son solo letras inglesas, números y puntos. Hay muchas codificaciones de caracteres de computadora que se traducen en letras, números, acentos, signos de puntuación, símbolos internacionales, etc.
A menudo, en este tema, también se usa el término "páginas de códigos". Son esencialmente codificaciones de caracteres utilizadas por empresas específicas, a menudo con ligeras modificaciones. Por ejemplo, la página de códigos de Windows 1252 (anteriormente conocida como ANSI 1252) es una forma modificada del ISO-8859-1. Se usan principalmente como un sistema interno para referirse a codificaciones de caracteres estándar y modificadas que son específicas para los mismos sistemas. Al principio, la codificación de caracteres no era tan importante porque las computadoras no se comunicaban entre sí. Con el aumento de la prominencia de Internet y la creación de redes como un hecho común, se ha convertido en una cada vez más importante de nuestra vida cotidiana sin que siquiera nos demos cuenta.
(Imagen de sarah sosiak)
Existen muchas codificaciones de caracteres diferentes, y hay muchas razones para eso. La codificación de caracteres que elija usar depende de cuáles sean sus necesidades. Si se comunica en ruso, tiene sentido usar una codificación de caracteres que admita bien el cirílico. Si se comunica en coreano, querrá algo que represente bien a Hangul y Hanja. Si eres un matemático, entonces quieres algo que tenga todos los símbolos científicos y matemáticos bien representados, así como los glifos griegos y latinos. Si eres un bromista, tal vez te beneficiarías de un texto al revés. Y, si desea que todos los tipos de documentos sean vistos por una persona determinada, desea una codificación que sea bastante común y de fácil acceso.
Echemos un vistazo a algunos de los más comunes.
(Extracto de la tabla ASCII, Imagen de asciitable.com)
(Extracto de escritura tibetana, Unicode v4, desde unicode.org)
Bueno, ASCII funciona para la mayoría de los hablantes de inglés, pero no para mucho más. Más a menudo verá ISO-8859-1, que funciona para la mayoría de los idiomas de Europa occidental. Las otras versiones de ISO-8859 funcionan para cirílico, árabe, griego u otros scripts específicos. Sin embargo, si desea visualizar varias secuencias de comandos en el mismo documento o en la misma página web, UTF-8 permite una compatibilidad mucho mejor. También funciona muy bien para las personas que usan la puntuación adecuada, símbolos matemáticos o caracteres extraños, como cuadrados y casillas de verificación.
(Varios idiomas en un documento, captura de pantalla de gujaratsamachar.com)
Hay inconvenientes para cada conjunto, sin embargo. ASCII está limitado en sus signos de puntuación, por lo que no funciona increíblemente bien para ediciones tipográficamente correctas. ¿Alguna vez ha copiado / pegado de Word solo para tener una extraña combinación de glifos? Esa es la desventaja de ISO-8859, o más correctamente, su supuesta interoperabilidad con páginas de códigos específicas del sistema operativo (¡estamos viendo USTED, Microsoft!). El mayor inconveniente de UTF-8 es la falta de soporte adecuado en las aplicaciones de edición y publicación. Otro problema es que los navegadores a menudo no interpretan y solo muestran la marca de orden de bytes de un carácter codificado en UTF-8. Esto da como resultado la visualización de glifos no deseados. Y, por supuesto, declarar una codificación y usar caracteres de otra sin declararlos / referenciarlos correctamente en una página web hace que sea difícil para los navegadores representarlos correctamente y para que los motores de búsqueda los indexen de manera adecuada.
Para sus propios documentos, manuscritos, etc., puede usar lo que necesite para hacer el trabajo. Sin embargo, en lo que respecta a la Web, parece que la mayoría de las personas está de acuerdo en usar una versión UTF-8 que no utiliza una marca de orden de bytes, pero eso no es del todo unánime. Como puede ver, cada codificación de caracteres tiene su propio uso, contexto, fortalezas y debilidades. Como usuario final, es probable que no tenga que lidiar con esto, pero ahora puede dar el paso adicional si así lo desea.
Cómo evitar que su Mac duerma sin software adicional
¿Se va a dormir su Mac en momentos inoportunos? ¿Le gustaría mantenerlo despierto, pero no desea instalar software adicional? Con este pequeño truco de línea de comando, puedes mantener tu Mac despierta por un tiempo determinado o indefinidamente. RELACIONADO: Cómo evitar temporalmente que tu Mac duerma En el pasado te dijimos que puede usar una pequeña aplicación práctica llamada cafeína para mantener despierta su Mac.
Cómo reiniciar el contador de capturas de pantalla de Windows 10
Cuando toma capturas de pantalla en Windows 10 con el atajo de Windows + PrtScn, guarda automáticamente esas imágenes llamándolas "Captura de pantalla (1)," " Captura de pantalla (2), "y así sucesivamente. Incluso si elimina capturas de pantalla, ese contador simplemente sigue subiendo. Puede usar un truco de Registro rápido para reiniciar ese contador cuando lo desee.