Codificación de Voz

Las centrales telefónicas digitales realizan la conmutación de audio en forma digital. Las centrales IP (IP PBX, Softswitches, etc.) utilizan las redes de datos para realizar el envío de audio entre dispositivos, a través del envío de paquetes de datos. Esto requiere que en algún punto del sistema la señal de voz analógica sea digitalizada, es decir, convertida en una secuencia de número discretos. Este proceso puede realizarse en los propios teléfonos (cómo es el caso en los “teléfonos digitales” o en los “teléfonos IP”), en “Gateways” (o conversores de medios y señalización) o las “placas de abonados” entre otros.

Fig. 1 Representacion de codificacion de voz

El objetivo fundamental de la codificación de voz es la conversión de la señal de voz a una secuencia binaria o representación digital. Dado el carácter analógico (señal continua en tiempo y amplitud) de la señal de voz, la codificación de voz conlleva un proceso básico de muestreo y cuantificación para conseguir una representación digital (conversión analógico/digital). Mediante el muestreo discretizamos la señal en tiempo y mediante la cuantificación discretizamos la señal en amplitud. Para que en este proceso de digitalización no exista pérdida de información, debemos muestrear la señal a una velocidad (fm) que como mínimo sea el doble de la frecuencia más alta presente en la señal que estamos discretizando.

La codificación de la voz ha evolucionado notoriamente desde las primeras ideas de Alec Reeves. Inicialmente, los codecs se basaron en codificar de la manera más eficiente posible la “forma de onda” de la señal, utilizando características de la voz y el oído (por ejemplo, se ha comprobado que el oído humano es más sensible a ruidos o distorsiones en señales de baja amplitud que a los mismos ruidos o distorsiones en señales de mayor amplitud). Tal es el caso de los códecs del tipo PCM (que serán descritos en detalle más adelante). Posteriormente, a los efectos de poder bajar la tasa de bits necesaria para la transmisión, se comenzaron a utilizar técnicas “predictivas”.

Estas técnicas están basadas en predecir los valores de las muestras en base a la extrapolación de las muestras anteriores, y codificar únicamente la diferencia entre la predicción y el valor real de la muestra. Esta predicción puede realizarse en forma fija o adaptiva, la que logra mucho mejores resultados. Las técnicas predictivas dieron origen a la tecnología conocida como “LPC” (Linear Prediction Coding), la que fue desarrollada sobre fines de los años 1960. En 1973 fue desarrollado el primer sistema práctico que utilizó técnicas del tipo LPC.

Existen básicamente 2 tipos de codificadores de voz:

Los codificadores de señal o forma de onda son aquellos que aprovechan información redundante de las muestras de voz de tal forma que permiten una codificación más eficiente que PCM con cuantización uniforme, pero no son tan dependientes de las propiedades espectrales y estadísticas de la voz, son aplicables a otras fuentes.
Los codificadores de fuente, que sí explotan las características propias de la voz, y por lo tanto no producen buenos resultados cuando la fuente no es la voz humana. Se conocen también como vocoders

Calidad de transmisión en la codificación de voz. Según se vio anteriormente, la calidad de una señal de voz decodificada depende de la tasa de transmisión.

Los codificadores de voz trabajan explotando las propiedades tanto temporales como frecuenciales de la señal de voz y del sistema auditivo humano puesto que en último término va a ser el sistema auditivo humano quien va a juzgar la calidad de la señal. Así, la correlación de la señal es utilizada para reducir el margen dinámico de la señal y de este modo poderla cuantificar con un número menor de bits, como por ejemplo en el codificador ADPCM (Adaptive differential pulse code modulation) que permite reducir a 32 kb/s la velocidad de transmisión sin degradar la calidad de la señal.

Ejemplos según el nivel MOS (Mean Opinión Score)

MOS > 4: Calidad de transmisión de difusión musical, similar a FM (> 64 kb/s).
MOS > 3: Calidad telefónica internacional (entre 16 y 64 kb/s).
MOS > 2: Calidad de transmisión de comunicaciones móviles
(entre 7.2 y 12 kb/s, distorsión menor)
MOS > 1: Calidad sintética (bajo los 5.2 kb/s, uso de vocoders).
MOS < 1: Calidad no aceptable

Digitalización y codificación de la voz

CODECs

Los codecs son los dispositivos que realizan la codificación y decodificación de la voz. Pueden ser caracterizados por diferentes aspectos, entre las que se encuentran su tasa de bits (bit rates), la calidad resultante del audio codificado, su complejidad, el tipo de tecnología utilizada y el retardo que introducen, entre otros.

Originalmente, los primeros codecs fueron diseñados para reproducir la voz en la banda de mayor energía, entre 300 Hz a 3.4 kHz. Actualmente este tipo de codecs son caracterizados como de “banda angosta” (narrowband). En contraste, los codecs que reproducen señales entre 50 Hz y 7 kHz se han llamado de “banda ancha” (wideband). Más recientemente, ITU-T ha estandarizado codecs llamados de banda superancha (superwideband), para el rango de 50 Hz a 14 kHz y de banda completa (fullband), para el rango de 50 Hz a 20 kHz

Sobre la década de 1980, una nueva idea es introducida en la codificación de la voz. Esta idea consiste en generar “voz sintética”, simulando la manera en que se produce la voz humana en el conducto vocal. La siguiente figura muestra la anatomía del aparato fonador, desde los pulmones hasta los labios.

Fig. 2 anatomía del aparato fonador (Tomado de: Arsuaga Ferreras, Juan L., Ignacio Martínez Mendizábal: La especie elegida. Barcelona: Temas de hoy, 2000, 4ª ed.)

Las siguientes tablas muestra algunos de los Codecs más conocidos.

Codecs de banda angosta (narrowband)

Codec	Nombre	Bit rate (kb/s)	Retardo (ms)	Comentarios
G.711	PCM: Pulse Code Modulation	64, 56	0.125	Codec “base”, utiliza dos posibles leyes de compresión: µ-law y A-law
G.723.1	Hybrid MPC-MLQ and ACELP	6.3, 5.3	37.5	Desarrollado originalmente para video conferencias en la PSTN, es actualmente utilizado en sistemas de VoIP
G.728	LD-CELP: Low-Delay code excited linear prediction	40, 16, 12.8, 9.6	1.25	Creado para aplicaciones DCME (Digital Circuit Multiplex Encoding)
G.729	CS-ACELP: Conjugate Structure Algebraic Codebook Excited Linear Prediction	11.8, 8, 6.4	15	Ampliamente utilizado en aplicaciones de VoIP, a 8 kb/s
AMR	Adaptive Multi Rate	12..2 a 4.75	20	Utilizado en redes celulares GSM

Codecs de banda ancha (wideband)

Codec	Nombre	Bit rate (kb/s)	Retardo (ms)	Comentarios
G.722	Sub-band ADPCM	48,56,64	3	Inicialmente diseñado para audio y videconferencias, actualmente utilizado para servicios de telefonía de banda ancha en VoIP
G.722.1	Transform Coder	24,32	40	Usado en audio y videoconferencias
G.722.2	AMR-WB	6.6, 8.85, 12.65, 14.25, 15.85, 18.25, 19.85, 23.05, 23.85	25.9375	Estandar en común con 3GPP (3GPP TS 26.171). Utilizado en le red celular 3G y LTE (4G)
G.711.1	Wideband G.711	64, 80, 96	11.875	Amplía el ancho de banda del codec G.711, optimizando su uso para VoIP
G.729.1	Wideband G.729	8 a 32 kb/s	<49 ms	Amplía el ancho de banda del codec G.729, y es “compatible hacia atrás” con este codec. Optimizado su uso para VoIP con audio de alta calidad
RtAudio	Real Time Audio	8.8, 18	40	Codec propietario de Microsoft, utilizado en aplicaciones de comunicaciones unificadas (OCS)

Codecs de banda super ancha (superwideband)

Codec	Nombre	Bit rate (kb/s)	Retardo (ms)	Comentarios
SILK	SILK	8 a 24	25	Utilizado por Skype

Codecs de banda completa (fullband)

Codec	Nombre	Bit rate (kb/s)	Retardo (ms)	Comentarios
G.719	Low-complexity, fullband	32 a 128	40	Es el primer codec “fullband” estandarizado por ITU

Referencias Bibliográficas

The History of Linear Prediction, Bishnu S Atal, IEEE Signal Processing Magazine, March 2006, pp 154-161

ITU-T Coders for Wideband, Superwideband and Fullband Specch Communication

R. V. Cox, S. Ferraz de Campos Neto, C. Lamblin, M. Hashem Sherif

IEEE Communications Magazine, October 2009, Vol. 47, No. 10

ITU-T G Series: Transmission systems and media, digital systems and networks

http://www.itu.int/net/itu-t/sigdb/speaudio/Gseries.htm

Autores: Eliud Gonzalez Valdez y Sergio Adan Montiel Gutierrez

4 comentarios sobre “Codificación de Voz”

Israel Benítez dice:

3 octubre, 2020 a las 5:17 pm

¿Cuál es el rango de frecuencias de la voz humana?

Me gustaMe gusta

Responder
Edgar Raúl Ruano Bautista dice:

14 octubre, 2020 a las 6:53 pm

¿Cuál de los dos tipos de codificadores de voz es mejor?

Me gustaMe gusta

Responder
luis ramses dice:

16 octubre, 2020 a las 10:45 pm

¿Qué son los CODECs y cuales son sus frecuencias de operación?

Me gustaMe gusta

Responder
Roberto Aviles Ramírez dice:

17 octubre, 2020 a las 10:56 am

¿Quién introdujo la idea de generar la voz sintética al proceso de codificación?¿Tiene alguna patente?

Me gustaMe gusta

Responder