Análisis de Textos, Codificación de Fuente y Canal
Enviado por Eric • 29 de Junio de 2018 • 1.387 Palabras (6 Páginas) • 319 Visitas
...
- Detección
- Control de paridad
- Vertical (VCR)
- Longitudinal (LRC)
- Bidimensional o de doble paridad
- Cíclica o entrelazada
- Código polinomial (CRC)
- Correctivos
- Códigos autocorrectivos
- Hamming
- Hagelbarger
- Bose Chaudhurí
- descripción del estudio realizado
el trabajo desarrollado consistió en implementar un programa computacional con el fin de utilizarlo como herramienta para aplicar algunas de las técnicas de codificación de fuente y canal vistas en el curso y obtener, a partir de unos archivos de texto, los valores de probabilidad, entropía, longitud promedio de código y eficiencia, aplicados al lenguaje español; así como adquirir destrezas y conocimientos de aplicaciones utilizadas en el campo de la ingeniería y las comunicaciones.
El desarrollo se hace en la plataforma MatLab y se utilizan las funciones que la aplicación tiene para codificar en fuente con cosificación Huffman y en canal con codificación Hamming.
Adicional se desarrolla un modulo para aplicar la codificar en Run-Length Code.
Básicamente el programa toma un archivo de texto y codifica ya sea por fuente con Huffman o RLC y en Canal por Hamming, guardo los archivos codificados y desplegando métricas como entropía, probabilidades de símbolos, codewords, etc.
[pic 3]
FIGURA No 2. Esquema básico de programa
Las características generales de la aplicación desarrollada son:
Codificación de Fuente:
- Se utiliza las funciones que la plataforma Matlab tiene para codificación de fuente en Huffman (encohuffman).
- Se realiza programa para codificar en Run-Length Code
- Se guarda los resultados en archivos DECO.HUFF, DECO.RLC
- La decodificación de hace a partir del archivo codificado (solo para DECO.HUFF)
- En el proceso de ejecución se despliega los resultados de las variables evaluadas. Entropía, Longitud promedio de código, Eficiencia, probabilidad, símbolos, compresión, codewords.
- Codificación se hace en base a caracteres ASCII.
Codificación de Canal:
- Se utiliza las funciones que la plataforma Matlab tiene para codificación de canal en Hamming (encohuffman).
- Se guarda los resultados en archivos DECO.HAMM
- La decodificación de hace a partir del archivo codificado.
Para el estudio, programa desarrollado se aplica a los siguientes aarchivos de Texto:
- CIEN AÑOS DE SOLEDAD CAPITULO I
- EL CORONEL NO TIENE QUIEN LE ESCRIBA CAPITULO 1.
- REPETIDO
Los resultados logrados son:
[pic 4]
Tabla No 1. Resultados obtenidos
Del análisis de los resultados obtenidos se puede concluir.
- Para el calculo de la entropía para archivos de habla hispana, se comprueba que la que su valor es por encima de los 4 bits/símbolos, consistente con otros estudios.
- La codificación RLC no es aplicable al idioma español, ya que las palabras utilizadas no presentan grandes repeticiones de caracteres y, en vez de comprimir, expande el archivo casi al doble se su tamaño. Para el ejemplo con el archivo llamado Repetido.txt, cuyo contenido son secuencias de caracteres, donde si se logra un compresión de los datos.
- La eficiencia en las aplicación de las técnicas de codificación de fuente a los loas archivos de habla hispana están por encima del 99%.
- Se validan los conceptos de entropía, codificación de fuente y canal, eficiencia de código que se estudiaron durante el curso.
- Se constata que en el idioma español hay caracteres con mayor frecuencia tales como: a, e, o, r, n, s, l i, d.
- En la codificación Huffman define codeword con longitud de 14 dígitos para los caracteres de menor probabilidad y de tres bits para lo de menor probabilidad.
- Consolidar y ampliar la visión de la que se tenia de la Teoría de la Información y las comunicaciones, resaltando la gran importancia y el papel fundamental que ha tenido en el desarrollo tecnológico.
- Referencias
- SHANNON, C. E. "A mathematical theory of communication," Bell Syst.Tech. J., vol. 27, pp. 379-423, 623-656, July-Oct. 1948.
- J. C. Carvajal. Analysis de la medida de la información en textos en español- UNIAJC Facultad de Ingenierias, Cali-Colombia.
- J. C. Carvajal. Material de Curso Teoría de la Información y la Comunicación. Especialización en Redes de Comunicación. Univalle
- www.wikepedia.org
---------------------------------------------------------------
...