Las centrales telefónicas digitales realizan la conmutación de audio en forma digital. Las centrales IP (IP PBX, Softswitches, etc.) utilizan las redes de datos para realizar el envío de audio entre dispositivos, a través del envío de paquetes de datos. Esto requiere que en algún punto del sistema la señal de voz analógica sea digitalizada, es decir, convertida en una secuencia de número discretos. Este proceso puede realizarse en los propios teléfonos (cómo es el caso en los “teléfonos digitales” o en los “teléfonos IP”), en “Gateways” (o conversores de medios y señalización) o las “placas de abonados” entre otros.
El objetivo fundamental de la codificación de voz es la conversión de la señal de voz a una secuencia binaria o representación digital. Dado el carácter analógico (señal continua en tiempo y amplitud) de la señal de voz, la codificación de voz conlleva un proceso básico de muestreo y cuantificación para conseguir una representación digital (conversión analógico/digital). Mediante el muestreo discretizamos la señal en tiempo y mediante la cuantificación discretizamos la señal en amplitud. Para que en este proceso de digitalización no exista pérdida de información, debemos muestrear la señal a una velocidad (fm) que como mínimo sea el doble de la frecuencia más alta presente en la señal que estamos discretizando.
La codificación de la voz ha evolucionado notoriamente desde las primeras ideas de Alec Reeves. Inicialmente, los codecs se basaron en codificar de la manera más eficiente posible la “forma de onda” de la señal, utilizando características de la voz y el oído (por ejemplo, se ha comprobado que el oído humano es más sensible a ruidos o distorsiones en señales de baja amplitud que a los mismos ruidos o distorsiones en señales de mayor amplitud). Tal es el caso de los códecs del tipo PCM (que serán descritos en detalle más adelante). Posteriormente, a los efectos de poder bajar la tasa de bits necesaria para la transmisión, se comenzaron a utilizar técnicas “predictivas”.
Estas técnicas están basadas en predecir los valores de las muestras en base a la extrapolación de las muestras anteriores, y codificar únicamente la diferencia entre la predicción y el valor real de la muestra. Esta predicción puede realizarse en forma fija o adaptiva, la que logra mucho mejores resultados. Las técnicas predictivas dieron origen a la tecnología conocida como “LPC” (Linear Prediction Coding), la que fue desarrollada sobre fines de los años 1960. En 1973 fue desarrollado el primer sistema práctico que utilizó técnicas del tipo LPC.
Existen básicamente 2 tipos de codificadores de voz:
- Los codificadores de señal o forma de onda son aquellos que aprovechan información redundante de las muestras de voz de tal forma que permiten una codificación más eficiente que PCM con cuantización uniforme, pero no son tan dependientes de las propiedades espectrales y estadísticas de la voz, son aplicables a otras fuentes.
- Los codificadores de fuente, que sí explotan las características propias de la voz, y por lo tanto no producen buenos resultados cuando la fuente no es la voz humana. Se conocen también como vocoders
Calidad de transmisión en la codificación de voz. Según se vio anteriormente, la calidad de una señal de voz decodificada depende de la tasa de transmisión.
Los codificadores de voz trabajan explotando las propiedades tanto temporales como frecuenciales de la señal de voz y del sistema auditivo humano puesto que en último término va a ser el sistema auditivo humano quien va a juzgar la calidad de la señal. Así, la correlación de la señal es utilizada para reducir el margen dinámico de la señal y de este modo poderla cuantificar con un número menor de bits, como por ejemplo en el codificador ADPCM (Adaptive differential pulse code modulation) que permite reducir a 32 kb/s la velocidad de transmisión sin degradar la calidad de la señal.
Ejemplos según el nivel MOS (Mean Opinión Score)
- MOS > 4: Calidad de transmisión de difusión musical, similar a FM (> 64 kb/s).
- MOS > 3: Calidad telefónica internacional (entre 16 y 64 kb/s).
- MOS > 2: Calidad de transmisión de comunicaciones móviles
- (entre 7.2 y 12 kb/s, distorsión menor)
- MOS > 1: Calidad sintética (bajo los 5.2 kb/s, uso de vocoders).
- MOS < 1: Calidad no aceptable
Digitalización y codificación de la voz
CODECs
Los codecs son los dispositivos que realizan la codificación y decodificación de la voz. Pueden ser caracterizados por diferentes aspectos, entre las que se encuentran su tasa de bits (bit rates), la calidad resultante del audio codificado, su complejidad, el tipo de tecnología utilizada y el retardo que introducen, entre otros.
Originalmente, los primeros codecs fueron diseñados para reproducir la voz en la banda de mayor energía, entre 300 Hz a 3.4 kHz. Actualmente este tipo de codecs son caracterizados como de “banda angosta” (narrowband). En contraste, los codecs que reproducen señales entre 50 Hz y 7 kHz se han llamado de “banda ancha” (wideband). Más recientemente, ITU-T ha estandarizado codecs llamados de banda superancha (superwideband), para el rango de 50 Hz a 14 kHz y de banda completa (fullband), para el rango de 50 Hz a 20 kHz
Sobre la década de 1980, una nueva idea es introducida en la codificación de la voz. Esta idea consiste en generar “voz sintética”, simulando la manera en que se produce la voz humana en el conducto vocal. La siguiente figura muestra la anatomía del aparato fonador, desde los pulmones hasta los labios.
Fig. 2 anatomía del aparato fonador (Tomado de: Arsuaga Ferreras, Juan L., Ignacio Martínez Mendizábal: La especie elegida. Barcelona: Temas de hoy, 2000, 4ª ed.)
Las siguientes tablas muestra algunos de los Codecs más conocidos.
Codecs de banda angosta (narrowband)
Codec | Nombre | Bit rate (kb/s) | Retardo (ms) | Comentarios |
G.711 | PCM: Pulse Code Modulation | 64, 56 | 0.125 | Codec “base”, utiliza dos posibles leyes de compresión: µ-law y A-law |
G.723.1 | Hybrid MPC-MLQ and ACELP | 6.3, 5.3 | 37.5 | Desarrollado originalmente para video conferencias en la PSTN, es actualmente utilizado en sistemas de VoIP |
G.728 | LD-CELP: Low-Delay code excited linear prediction | 40, 16, 12.8, 9.6 | 1.25 | Creado para aplicaciones DCME (Digital Circuit Multiplex Encoding) |
G.729 | CS-ACELP: Conjugate Structure Algebraic Codebook Excited Linear Prediction | 11.8, 8, 6.4 | 15 | Ampliamente utilizado en aplicaciones de VoIP, a 8 kb/s |
AMR | Adaptive Multi Rate | 12..2 a 4.75 | 20 | Utilizado en redes celulares GSM |
Codecs de banda ancha (wideband)
Codec | Nombre | Bit rate (kb/s) | Retardo (ms) | Comentarios |
G.722 | Sub-band ADPCM | 48,56,64 | 3 | Inicialmente diseñado para audio y videconferencias, actualmente utilizado para servicios de telefonía de banda ancha en VoIP |
G.722.1 | Transform Coder | 24,32 | 40 | Usado en audio y videoconferencias |
G.722.2 | AMR-WB | 6.6, 8.85, 12.65, 14.25, 15.85, 18.25, 19.85, 23.05, 23.85 | 25.9375 | Estandar en común con 3GPP (3GPP TS 26.171). Utilizado en le red celular 3G y LTE (4G) |
G.711.1 | Wideband G.711 | 64, 80, 96 | 11.875 | Amplía el ancho de banda del codec G.711, optimizando su uso para VoIP |
G.729.1 | Wideband G.729 | 8 a 32 kb/s | <49 ms | Amplía el ancho de banda del codec G.729, y es “compatible hacia atrás” con este codec. Optimizado su uso para VoIP con audio de alta calidad |
RtAudio | Real Time Audio | 8.8, 18 | 40 | Codec propietario de Microsoft, utilizado en aplicaciones de comunicaciones unificadas (OCS) |
Codecs de banda super ancha (superwideband)
Codec | Nombre | Bit rate (kb/s) | Retardo (ms) | Comentarios |
SILK | SILK | 8 a 24 | 25 | Utilizado por Skype |
Codecs de banda completa (fullband)
Codec | Nombre | Bit rate (kb/s) | Retardo (ms) | Comentarios |
G.719 | Low-complexity, fullband | 32 a 128 | 40 | Es el primer codec “fullband” estandarizado por ITU |
Referencias Bibliográficas
- The History of Linear Prediction, Bishnu S Atal, IEEE Signal Processing Magazine, March 2006, pp 154-161
- ITU-T Coders for Wideband, Superwideband and Fullband Specch Communication
R. V. Cox, S. Ferraz de Campos Neto, C. Lamblin, M. Hashem Sherif
IEEE Communications Magazine, October 2009, Vol. 47, No. 10
- ITU-T G Series: Transmission systems and media, digital systems and networks
http://www.itu.int/net/itu-t/sigdb/speaudio/Gseries.htm
Autores: Eliud Gonzalez Valdez y Sergio Adan Montiel Gutierrez
¿Cuál es el rango de frecuencias de la voz humana?
Me gustaMe gusta
¿Cuál de los dos tipos de codificadores de voz es mejor?
Me gustaMe gusta
¿Qué son los CODECs y cuales son sus frecuencias de operación?
Me gustaMe gusta
¿Quién introdujo la idea de generar la voz sintética al proceso de codificación?¿Tiene alguna patente?
Me gustaMe gusta