El problema no es bajarlas a 320 Kb/s @ 44 Khz de sample / rate, sino el hecho de que cuando se sube un vídeo a cualquier página de vídeos, se convierten automáticamente al formato FLV (aunque Youtube también ha incorporado el formato WEBM).
Un poco de teoría.
El formato FLV (desarrollado por Adobe para su popular Flash Player, y desde que se conociera como Macromedia Flash Player), a "grosso modo" incorpora dos potentes compresores de audio y vídeo, siendo generalmente el H.263 (Sorenson Spark) o el TrueMotion VP6 (On2) para el vídeo, y WAV, el MP3, o el ADPCM para el audio, siendo este último el más destructivo.
Por su parte, el formato WEBM (de código abierto, y desarrollado por Google como estándar para el nuevo HTML5), incorpora los codecs On2 VP8 en vídeo (formato HD o H.264), y el Vorbis en audio, además de multiplexores, rutinas para el mutiplexor - demultiplexor, y otros contenidos (como comentarios, subtítulos, ...) embebidos en un contenedor multimedia Matroska (como las muñecas rusas que van unas dentro de otras).
La práctica.
Cuando nos descargamos un vídeo con el Atube o similar, descargamos uno de esos formatos de archivo. Partimos de la base de que el compresor de Youtube es excelente (ni el Atube Catcher ofrece la misma calidad para el FLV), y que dicho sea de paso, no sé por qué no se ha convertido en un estándar como el MP3 o el WMA.
Ningún otro formato da la misma calidad de imagen y sonido (prácticamente como un DVD) en el tamaño que ocupan estos formatos pasados por el compresor de Youtube. Como dato, un vídeo FLV de unos 3 minutos pesa unos 15 Mb, frente a los 30Mb o más de un MP4, o los 60 o más de un MPEG, para ni aproximarse a la calidad, sobre todo de imagen, del FLV (si marcáis la opción de conservar los archivos al terminar del Atube y realizáis varias conversiones a otros formatos, podréis comprobar estos datos).
Por su parte, un MP3 @ 128 Kb/s y 44 Khz S/R ocupa prácticamente 1 Mb por minuto.
Ahora, partiendo de la base que la mayoría de vídeos de Youtube son en formato FLV y utilizan MP3 como codec de audio, aplicándolo al ejemplo del vídeo de 3 minutos, tendríamos que necesita 3 Mb sólo para el audio y los 12 restantes para la codificación del vídeo, datos enlazados, librerías propias del formato Flash, datos externos (nombre de archivo, duración, ...), etc.
Pero, si para conseguir la misma calidad en formato MP4 hace falta casi el triple de datos, ¿dóne está el truco del FLV?
Pues el truco del compresor de Youtube está en que aprovecha los huecos con menos información del achivo MP3 para rellenarlos con datos de vídeo y otros, dando como resultado que los datos MP3 pueden no llegar a representar ni la mitad de lo que sería como archivo aislado previamente. Sería como recortar con el Photoshop la parte blanca de una imagen de una onda de sonido, y rellenarlo con datos de vídeo. No es así el sentido exacto del concepto, pero uno de los compresores finales que se usa en el formato FLV es el Zlib, y es lo que viene a hacer.
Y ahora, ¿por qué no va a sonar igual en MP3 que en el FLV?. Pues por la citada compresión variable que ha hecho el Zlib.
Al reproducirlo desde el Flash Player (o el Windows Media Player si se instala el Klite code pack, p. ejem.), por decirlo de alguna manera, se desandan los pasos dados, volviendo prácticamente todo a su estado original durante la reproducción, pero esto no ocurre a extraer sólo el audio, ya que audio y vídeo van prácticamente mezclados, por lo que el programa que extraiga el MP3 tendrá que usar esos datos extremadamente reducidos, o bien, realizar una grabación directa sobre el mezclador de audio del ordenador.
Conclusión.
Aun utilizando el mayor muestreo y calidad del MP3 en la conversión, los datos de origen estan tan comprimidos que aunque a esa mierda la pintes de blanco, por dentro seguirá siendo mierda.
Excluyo de esto los formatos HD, tanto del FLV como del WEBM, partiendo de la base de que para estos se hayan usado una fuente directa o vídeo de alta calidad, porque si el archivo original ya es malo, por muy HD que sea, seguirá siendo malo.
He dicho.