X
    Categorías: Domotica

Pangu Ultra de Huawei: un análisis asombroso de su rendimiento frente a DeepSeek-R1 sin NVIDIA

Huawei ha hecho un gran avance con su modelo Pangu Ultra, que demuestra un potencial competitivo en capacidad de inferencia, rivalizando con el DeepSeek-R1. Este modelo, que cuenta con 135 mil millones de parámetros, ha sido entrenado completamente en clústeres Ascend, prescindiendo de la tecnología de Nvidia. Lo notable es que durante todo el proceso de entrenamiento no se han presentado picos de pérdida. Gracias a las mejoras en la arquitectura del modelo y estrategias de optimización del sistema, la tasa de utilización de la potencia de cálculo de Pangu Ultra ha superado el 52%.

Durante la fase de pre-entrenamiento, Pangu Ultra no solo obtuvo los mejores resultados en numerosos benchmarks en inglés, sino que también destacó en todas las tareas en chino, superando a modelos de referencia como Llama 405B y DeepSeek-V3. En particular, el modelo ha brillado en conjuntos de datos desafiantes como MMLU, TriviaQA y GSM8K, donde ha demostrado una sobresaliente comprensión del lenguaje y capacidad de razonamiento.

El diseño de Pangu Ultra se basa en una estructura de red profunda con 94 capas, incluyendo de forma innovadora un mecanismo de atención de consulta agrupada (GQA). Junto a esto, se han implementado la normalización Sandwich-Norm y la estrategia de inicialización de parámetros TinyInit, logrando así una estabilidad y velocidad de convergencia notables. A diferencia de la normalización Pre-LN tradicional, Sandwich-Norm normaliza las salidas de las subcapas mientras reduce la inestabilidad en el entrenamiento, y TinyInit optimiza el rendimiento en la inicialización teniendo en cuenta tanto la profundidad como el ancho del modelo.

El proceso de entrenamiento de Pangu Ultra se ha dividido en tres fases: pre-entrenamiento, extensión de contexto largo y ajuste de instrucciones. La fase de pre-entrenamiento se ha subdividido en etapas generales, de inferencia y de enfriamiento, con el fin de mejorar integralmente la comprensión del lenguaje y la capacidad de razonamiento del modelo. Además, el equipo de investigación ha optimizado el tokenizer, asegurando una cobertura y eficiencia de codificación de datos en diversos dominios.

Pangu Ultra ha sido entrenado en un clúster de computación masiva compuesto por 8192 procesadores AI Ascend. En su entrenamiento, se han utilizado diversas estrategias de paralelización que garantizan tanto la eficiencia computacional como un alto nivel de transferencia de datos. Estas innovaciones y estrategias de optimización permiten que Pangu Ultra compita al más alto nivel con otros modelos poderosos del sector.

Fuente

La entrada Pangu Ultra de Huawei: un análisis asombroso de su rendimiento frente a DeepSeek-R1 sin NVIDIA se publicó primero en Domótica en Casa.

Eduardo Ruiz: Informático de vocación, apasionado de la tecnología y blogger desde hace mucho tiempo, escribo de lo que me entretiene y disfruto con ello. Si deseas seguirme, usa el rss del blog o en mi perfil de .
Artículos relacionados