Investigación y progreso de la tecnología de compresión de imágenes digitales
Resumen: La tecnología de compresión de imágenes digitales es de gran importancia para lograr una transmisión rápida y un procesamiento en tiempo real de información de imágenes digitales en la red. Este artículo presenta varios de los algoritmos de compresión de imágenes actuales más importantes: JPEG, JPEG2000, compresión de imágenes fractales y compresión de imágenes por transformada wavelet, y resume sus ventajas, desventajas y perspectivas de desarrollo. Luego se presenta el estado de la investigación del algoritmo de codificación de objetos visuales de forma arbitraria y se señala que este algoritmo es un algoritmo de compresión de imágenes que produce una alta relación de compresión. Palabras clave: JPEG; JPEG2000; compresión de imágenes fractales; transformación wavelet; codificación de objetos visuales de forma arbitraria - Introducción Con el desarrollo continuo de la tecnología multimedia y la tecnología de la comunicación, el entretenimiento multimedia, la autopista de la información, etc. continúan planteando requisitos para el almacenamiento y la transmisión de Los mayores requisitos también suponen una dura prueba para el ancho de banda limitado existente. En particular, la comunicación de imágenes digitales con una gran cantidad de datos es más difícil de transmitir y almacenar, lo que restringe en gran medida el desarrollo de la tecnología de compresión de imágenes. ha sido cada vez más popular. El propósito de la compresión de imágenes es representar y transmitir la imagen original más grande en la menor cantidad de bytes posible y exigir que la imagen restaurada tenga buena calidad. La compresión de imágenes puede reducir la carga del almacenamiento y la transmisión de imágenes, permitiendo una transmisión rápida y un procesamiento en tiempo real de imágenes en la red. La tecnología de codificación por compresión de imágenes se remonta a la digitalización de señales de televisión propuesta en 1948 y tiene una historia de más de 50 años [1]. Durante este período, surgieron muchos métodos de codificación de compresión de imágenes, especialmente después de finales de la década de 1980, debido al establecimiento de la teoría de la transformada wavelet, la teoría fractal, la teoría de redes neuronales artificiales y la teoría de la simulación visual, la tecnología de compresión de imágenes ha logrado un desarrollo sin precedentes, entre los que se encuentran los fractales. La compresión de imágenes y la compresión de imágenes wavelet son puntos de investigación actuales. Este artículo revisa los algoritmos de compresión de imágenes más utilizados y analiza sus ventajas, desventajas y perspectivas de desarrollo. 2. Compresión JPEG El "Grupo Conjunto de Expertos en Fotografía (JPEG)" responsable de desarrollar estándares de compresión de imágenes fijas formó el primer borrador de especificaciones técnicas JPEG basado en DCT adaptativo. Posteriormente, muchos Después de varias revisiones, el borrador del estándar internacional ISO10918 fue Se formó en 1991 y se convirtió en un estándar internacional un año después, conocido como estándar JPEG. 1. Principios y características de la compresión JPEG En el algoritmo JPEG, la imagen primero se procesa en bloques, generalmente en bloques de tamaños que no se superponen, y luego se realiza una transformación de coseno discreta (DCT) bidimensional en cada bloque. Los coeficientes transformados son básicamente irrelevantes y la energía de la matriz de coeficientes se concentra en el área de baja frecuencia y se cuantifica de acuerdo con la tabla de cuantificación. El resultado de la cuantificación retiene los coeficientes de la parte de baja frecuencia y los elimina. de la parte de alta frecuencia. Los coeficientes cuantificados se reorganizan mediante escaneo en zigzag y luego se codifican con Huffman. Las características y ventajas de JPEG: (1) Ha formado un estándar internacional; (2) Tiene buena calidad de imagen a velocidades de bits de rango medio y alto. Desventajas: (1) Debido al bloqueo de imágenes, se producen efectos de bloqueo severos con relaciones de compresión altas (2) Los coeficientes están cuantificados, lo cual es una compresión con pérdida (3) La relación de compresión no es alta, menos de 50; La razón por la que aparece el efecto de bloque en imágenes comprimidas JPEG es que, en circunstancias normales, la señal de la imagen es muy no estacionaria, lo que es difícil de describir mediante el proceso de Gauss, y algunas estructuras de mutación en la imagen, como la información de los bordes, están lejos. más importante que la estabilidad de la imagen. El resultado de la aproximación no lineal de las señales de la imagen no es óptimo. 2. Estado de la investigación y perspectivas de la compresión JPEG En vista del hecho de que JPEG produce efectos de bloque e imágenes descomprimidas deficientes con relaciones de compresión altas, se han propuesto muchos métodos de mejora en los últimos años. Los más efectivos son los dos métodos siguientes: (1) DCT cero. Codificación de árbol La codificación de árbol cero DCT combina los coeficientes del bloque DCT en subbandas log2N y luego los codifica utilizando un esquema de codificación de árbol cero. Bajo la misma relación de compresión, su valor PSNR es mayor que el de EZW. Sin embargo, en el caso de una relación de compresión alta, el efecto de bloque sigue siendo la debilidad fatal de la codificación de árbol cero DCT.
(2) Codificación de árbol cero DCT en capas: este algoritmo realiza una transformación DCT en la imagen, concentra los bloques de baja frecuencia y realiza una transformación DCT inversa, realiza la misma transformación en la imagen recién obtenida, y así sucesivamente, hasta que; Se cumplen los requisitos. Luego se realiza la codificación de árbol cero en la transformada DCT en capas y los coeficientes dispuestos en árbol cero. Uno de los mayores problemas en la compresión JPEG es el grave efecto de bloque producido con altas relaciones de compresión. Por lo tanto, en investigaciones futuras, deberíamos centrarnos en resolver el efecto de bloque causado por la transformación DCT y considerar combinarlo con las características visuales del ojo humano. para compresión. 3. Compresión JEPG2000 JPEG2000 es un nuevo estándar de compresión de imágenes fijas desarrollado por el grupo de estandarización ISO/IEC JTCISC29. Una de las mayores mejoras es que utiliza la transformada wavelet en lugar de la transformada coseno. La Conferencia de Tokio de marzo de 2000 determinó un método de codificación de nueva generación para imágenes fijas en color: el algoritmo de codificación del estándar de compresión de imágenes JPEG2000. 1. Principio y características de la compresión JPEG2000 El diagrama de bloques del codificador y decodificador del sistema de códec JPEG2000 se muestra en la Figura 1. El proceso de codificación se divide principalmente en los siguientes procesos: preprocesamiento, procesamiento central y organización del flujo de bits. La parte de preprocesamiento incluye segmentación de imágenes, desplazamiento de nivel de corriente continua (DC) y transformación de componentes. La parte central de procesamiento consta de transformada wavelet discreta, cuantificación y codificación de entropía. La parte de organización del flujo de bits incluye división de área, bloque de código, organización de capas y paquetes. La relación de compresión de imágenes del formato JPEG2000 se puede aumentar entre un 10 y un 30% según el JPEG actual, y las imágenes comprimidas parecen más delicadas y fluidas. Para el estándar JPEG actual, la compresión con y sin pérdidas no se puede proporcionar en el mismo flujo de código de compresión al mismo tiempo. En el sistema JPEG2000, la compresión con y sin pérdidas de imágenes se puede realizar seleccionando parámetros. Las imágenes JPEG en Internet ahora se transmiten en "bloques" cuando se descargan, mientras que las imágenes en formato JPEG2000 admiten la transmisión progresiva, lo que elimina la necesidad de que los usuarios reciban el flujo de código comprimido de la imagen completa. Dado que JPEG2000 utiliza tecnología wavelet, puede obtener aleatoriamente el flujo de código comprimido de ciertas áreas de interés (ROI) de la imagen y realizar operaciones como transmisión y filtrado de los datos de la imagen comprimida. 2. Las perspectivas de la compresión JPEG2000 El estándar JPEG2000 es adecuado para la codificación por compresión de varias imágenes. Sus áreas de aplicación incluirán Internet, fax, impresión, teledetección, comunicaciones móviles, atención médica, bibliotecas digitales y comercio electrónico. El estándar de compresión de imágenes JPEG2000 se convertirá en el estándar de compresión de imágenes estáticas principal en el siglo XXI. 4. Compresión de imágenes por transformada Wavelet 1. Principio de la compresión de imágenes por transformada wavelet La idea básica de la transformada wavelet utilizada en la codificación de imágenes es descomponer la imagen en resolución múltiple de acuerdo con el algoritmo de transformación wavelet rápida de la torre Mallat. El proceso específico es: primero realizar una descomposición de wavelets de varios niveles en la imagen, luego cuantificar los coeficientes de wavelets de cada capa y luego codificar los coeficientes cuantificados. La compresión de imágenes wavelet es uno de los puntos calientes actuales en la compresión de imágenes. Se han formado estándares de compresión internacionales basados en la transformada wavelet, como el estándar MPEG-4 y el estándar JPEG2000 como se mencionó anteriormente. 2. El estado de desarrollo y las perspectivas de la compresión de imágenes por transformada wavelet. Actualmente, los tres niveles más altos de codificación de imágenes wavelet son la codificación de imágenes de árbol cero wavelet incorporada (EZW), la asignación de muestras en codificación de imágenes de árboles jerárquicos (SPIHT) y la codificación de compresión de imágenes extensible (EBCOT). ). (1) Codificador EZW En 1993, Shapiro introdujo el concepto de "árbol cero" de ondas y realizó una codificación recursiva de árbol de ondas espaciales definiendo cuatro símbolos de POS, NEG, IZ y ZTR, eliminando efectivamente la codificación de coeficientes de alta frecuencia. La eficiencia de los coeficientes wavelet mejora enormemente. Este algoritmo utiliza cuantificación progresiva y modo de codificación integrada, y tiene una baja complejidad de algoritmo. El algoritmo EZW rompe la creencia arraigada en el campo del procesamiento de información: los codificadores de compresión eficientes deben obtenerse mediante algoritmos altamente complejos, por lo que el codificador EZW es un hito en la historia de la compresión de datos.
(2) Codificador SPIHT El algoritmo de segmentación de conjuntos de árboles de ondas jerárquicas (SPIHT) propuesto por Said y Pearlman utiliza el método de segmentación jerárquica de árboles espaciales para reducir efectivamente el tamaño del conjunto de símbolos de codificación en el plano de bits. En comparación con EZW, el algoritmo SPIHT construye dos tipos diferentes de árboles de cero espaciales, haciendo un mejor uso de la ley de atenuación de amplitud de los coeficientes wavelet. Al igual que el codificador EZW, el codificador SPIHT tiene una baja complejidad de algoritmo y produce un flujo de bits integrado, pero el rendimiento del codificador mejora considerablemente en comparación con el EZW. (3) El método de codificación de bloques integrado del punto de truncamiento optimizado del codificador EBCOT (EBCOT) primero divide cada subbanda de descomposición de wavelets en bloques de código relativamente independientes y luego utiliza el algoritmo de truncamiento en capas optimizado para codificar estos bloques de código para generar Comprimir el código flujo, el flujo de código comprimido resultante de la imagen no solo es escalable en SNR sino también en resolución escalable, y también puede admitir el almacenamiento aleatorio de la imagen. En comparación, la complejidad del algoritmo EBCOT es mayor que la de EZW y SPIHT, y su rendimiento de compresión es ligeramente mejor que el de SPIHT.
La compresión de imágenes Wavelet se considera uno de los algoritmos de compresión de imágenes más prometedores en la actualidad. La investigación sobre la compresión de imágenes wavelet se centra en la codificación de coeficientes wavelet. En trabajos futuros, se deberían considerar plenamente las características visuales humanas para aumentar aún más la relación de compresión y mejorar la calidad de la imagen. Y considere combinar la transformada wavelet con otros métodos de compresión. Por ejemplo, combinarlo con la compresión de imágenes fractales es un tema de investigación actual.
Compresión de cinco imágenes fractales En 1988, Barnsley demostró experimentalmente que la compresión de imágenes fractales puede alcanzar una relación de compresión varios órdenes de magnitud mayor que la de la tecnología de codificación de imágenes clásica. En 1990, después de que el estudiante de Barnsley, A.E. Jacquin, propusiera la teoría de los sistemas de funciones iterativas locales, fue posible implementar automáticamente fractales para la compresión de imágenes en las computadoras. 1. Principio de la compresión de imágenes fractales La compresión fractal utiliza principalmente las características de autosemejanza y se implementa a través de un sistema de funciones iteradas (IFS). Su base teórica es el teorema del sistema de funciones iterativas y el teorema del collage. La compresión de imágenes fractales divide la imagen original en varias subimágenes, y luego cada subimágenes corresponde a una función iterativa. Las subimágenes se almacenan utilizando la función iterativa. Cuanto más simple es la función iterativa, mayor es la relación de compresión. De manera similar, al decodificar, siempre que la función de iteración correspondiente a cada subimagen se llame y se repita repetidamente, se puede restaurar la subimagen original y se puede obtener la imagen original. 2. Varias tecnologías principales de codificación de imágenes fractales Con el desarrollo de la tecnología de compresión de imágenes fractales, se han propuesto cada vez más algoritmos basados en las diferentes características de los fractales, que se pueden dividir en los siguientes métodos principales de codificación de imágenes fractales. (1) Método de codificación de tamaño El método de codificación de tamaño se basa en el método de utilizar escalas pequeñas para medir la longitud de curvas irregulares en la geometría fractal. Es similar a los métodos tradicionales de submuestreo e interpolación. Su principal diferencia es que se introduce el fractal. En el método de codificación de escala, la escala cambia con la complejidad de los distintos componentes de la imagen. (2) Método del sistema de funciones iterativas El método del sistema de funciones iterativas es actualmente la tecnología de compresión fractal más investigada y utilizada. Es una tecnología de collage de interacción humano-computadora, que se basa en los fenómenos naturales generales y locales que se encuentran comúnmente en las imágenes naturales. Características relacionadas, encuentre la expresión de esta relación de mapeo de autocorrelación, es decir, transformación afín, y logre el propósito de la compresión almacenando coeficientes afines que son más pequeños que los datos de la imagen original. Si la transformación afín encontrada es simple y efectiva, entonces el sistema de funciones iterativas puede lograr relaciones de compresión extremadamente altas. (3) Esquema fractal de A-E-Jacquin El esquema fractal de A-E-Jacquin es un esquema de compresión de imágenes fractales basado en bloques completamente automático. También es un proceso de búsqueda de relaciones de mapeo, pero el dominio del objeto a buscar es después de dividir la imagen en bloques. La relación entre lo local y lo local. Todavía hay cierta redundancia que se puede eliminar en este esquema y hay un efecto de bloqueo obvio en la imagen decodificada.
3. Las perspectivas de la compresión de imágenes fractales Aunque la compresión de imágenes fractales aún no domina el campo de la compresión de imágenes, la compresión de imágenes fractales considera tanto lo local como lo local, así como la correlación entre lo local y el todo, y es adecuada para imágenes autosimilares. o compresión de imágenes autoafines. Existe una gran cantidad de formas geométricas autosimilares o autoafines en la naturaleza, por lo que su rango de aplicación es muy amplio. Otros seis algoritmos de compresión Además de los métodos de compresión de imágenes comúnmente utilizados anteriormente, existen: compresión NNT (transformación de teoría de números), método de compresión basado en redes neuronales, método de compresión de imágenes de escaneo Hibert, método de compresión de subbanda multifase adaptativa, etc. ., aquí no se darán más detalles. La siguiente es una breve introducción a varios algoritmos para la codificación de texturas de formas arbitrarias en los últimos años [10] ~ [13]. (1) Algoritmo DCT de forma adaptable (SA-DCT) SA-DCT divide un objeto visual de forma arbitraria en bloques de imágenes y realiza una transformación DCT en cada bloque. Implementa una transformación Gilge DCT [10] [11] de forma adaptable, pero. es menos complejo que la transformada Gilge DCT. Sin embargo, SA-DCT también tiene desventajas: empuja los píxeles para que queden alineados con un lado del marco rectangular, por lo que se puede perder cierta correlación espacial. De esta manera, la transformación DCT de la columna causará una mayor distorsión. 15]. (2) Método de Egger Egger et al. [16][17] propusieron un esquema de transformación wavelet aplicado a objetos de formas arbitrarias. En este esquema, los píxeles de la fila del objeto visual primero se empujan a una posición al ras con el borde derecho del cuadro delimitador, luego la transformación wavelet se realiza en los píxeles útiles de cada fila y luego la transformación wavelet se realiza en el otra dirección. Este esquema aprovecha al máximo las características locales de la transformada wavelet. Sin embargo, esta solución también tiene sus problemas, como que puede causar que la parte importante de alta frecuencia se fusione con la parte límite, no puede garantizar que los coeficientes de distribución tengan la misma fase correcta entre sí y puede causar discontinuidad en la descomposición de ondas en segunda dirección, etc. (3) Transformada wavelet discreta adaptativa de forma (SA-DWT) Li et al. propusieron una nueva codificación de objetos de forma arbitraria, la codificación SA-DWT [18]~[22]. Esta tecnología incluye SA-DWT y extensiones de codificación de entropía de árbol cero (ZTE), así como codificación wavelet integrada (EZW). Las características de SA-DWT son: el número de coeficientes después de SA-DWT es el mismo que el número de píxeles del objeto visual de forma arbitraria original, la correlación espacial, los atributos regionales y la autosimilitud entre las subbandas de la wavelet; La transformada se puede expresar bien en SA-DWT; para áreas rectangulares, SA-DWT es lo mismo que la transformada wavelet tradicional. La implementación de la tecnología de codificación SA-DWT ha sido adoptada por el nuevo estándar de codificación multimedia MPEG-4 para codificar texturas estáticas de formas arbitrarias. En trabajos futuros, podemos aprovechar al máximo la sensibilidad del sistema visual humano a las partes del borde de la imagen, intentar segmentar los objetos de interés en la imagen y clasificar las partes del borde, las partes de la textura interna y las partes del fondo fuera de los objetos de acuerdo con a diferentes compresas con una relación de compresión más alta, lo que puede hacer que la imagen comprimida alcance una relación de compresión mayor y facilitar su transmisión. 7. Resumen La tecnología de compresión de imágenes se ha estudiado durante décadas y ha logrado grandes resultados, pero todavía existen muchas deficiencias que merecen un estudio más profundo. La compresión de imágenes wavelet y la compresión de imágenes fractales son puntos críticos de investigación actuales, pero también tienen sus propias deficiencias en trabajos futuros y deberían combinarse con las características visuales del ojo humano. En resumen, la compresión de imágenes es un campo de investigación muy prometedor y los avances en este campo tendrán un profundo impacto en el desarrollo de nuestra vida de la información y las comunicaciones.
Referencias: [1] Tian Qing. Tecnología de compresión de imágenes [J]. Police Technology, 2002, (1): 30-31. [2] Zhang Haiyan, Wang Dongmu, etc. J] . Journal of System Simulation, 2002, 14(7): 831-835. [3] Zhang Zongping, Liu Guizhong. Progreso de la investigación sobre la compresión de imágenes de vídeo basada en wavelet [J]. ): 883-889.
[4] Zhou Ning, Tang Xiaojun, Xu Weipu estándar de compresión de imágenes y sus algoritmos clave [J]. [5] Wu Yonghui, Yu Jianxin. Descripción general del algoritmo de compresión de imágenes JPEG2000 y perspectivas de aplicación de red [J]. Ingeniería informática, 2003, 29 (3): 7-10. [6] Codificación de imágenes integradas utilizando zerotree. coeficientes wavelet [J]. IEEE Trans on Signal Processing, 1993, 41 (12): 3445-3462. [7] A Said, W A Pearlman. Un nuevo códec de imágenes rápido y eficiente basado en la partición de conjuntos en árboles jerárquicos. IEEE Trans. sobre circuitos y sistemas para tecnología de vídeo. 1996, 6(3): 243-250. [8] D Taubman. Compresión de imágenes escalable con EBCOT[J]. 7): 1158–1170.[9] Xu Linjing, Meng Limin, Zhu Jianjun. Comparación y aplicación de wavelets y ramas en la compresión de imágenes China Cable TV, 2003, 03/04: 26-29. T Engelhardt, R Mehlan. Codificación de segmentos de imagen de forma arbitraria basada en una transformación ortogonal generalizada [J]. Image Commun., 1989, 1 (10): 153–180. -DCT adaptativo para codificación genérica de video [J]. IEEE Trans Circuits Syst., 1995, 5 (1): 59–62. [12] T Sikora, S Bauer, B Makai. Transformaciones 2-D para codificación de segmentos de imágenes de formas arbitrarias [J]. IEEE Trans Circuits Video Technol., 1995, 5 (3): 254-258. "Information Theory and Coding" editado por Deng Jiaxian y Kang Yaohong