Tenga cuidado con los puntos de referencia, ¿cómo saber qué buscar

CrazyBench3000

Como seguidores habituales del maravilloso mundo de Android es probable que haya echado un vistazo a través de numerosos puntos de referencia ya este año, sobre todo cuando se trata de apilar nuevos dispositivos unos contra otros. Sin embargo, después de numerosos escándalos, resultados impares y la naturaleza cerrada de muchas herramientas de evaluación comparativa, muchos se muestran escépticos acerca de su valor real. En el día de la tecnología de ARM semana pasada nos trataron de interesante charla sobre el tema de la evaluación comparativa y Siguió una acalorada discusión, y creemos que muchos de los puntos planteados están bien vale la pena compartir.

Los puntos de referencia como herramienta

Hay un montón de puntos de referencia por ahí, mirando para anotar todo, desde la CPU y la GPU a la vida de la batería y la calidad de visualización. Después de todo, si estamos desembolsar cientos de dólares por una pieza de tecnología, es mejor que un buen desempeño.

Sin embargo, es muy ampliamente aceptado que las pruebas de referencia no suelen reflejar con precisión las aplicaciones del mundo real. Incluso aquellos que intentan imitar a las demandas de un usuario medio no siempre siguen métodos particularmente científicas y repetibles. Permítanme compartir con ustedes algunos ejemplos.

Benchmark vs Real World

El gráfico anterior, recopilado por ARM, muestra el ancho de banda de cómputo y memoria requerida por una serie de puntos de referencia Android populares, una selección de juegos 2D y 3D disponibles en la Play Store, y los requisitos generales de la interfaz de usuario. Las líneas muestran la tendencia general de cada grupo, dependiendo de si se están inclinando más hacia el ancho de banda o de cómputo de cargas de trabajo. Más de eso en un minuto.

Es evidente que la mayoría de los puntos de referencia están probando hardware muy por encima de cualquier cosa que los usuarios experimentarán con una aplicación real. Sólo tres o cuatro caen en el grupo de juegos reales en 3D, por lo que el resto no es tan útil si quieres saber qué tan bien su nuevo teléfono o tableta harán frente en el mundo real. Hay suites navegador basado en que pueden variar ampliamente basado en nada más que el código del navegador subyacente y otros que superan con creces la capacidad de ancho de banda de memoria de la mayoría de los dispositivos. Es difícil de encontrar muchas que se parecen mucho a un escenario del mundo real.

Pero supongamos que sólo queremos comparar el potencial de rendimiento máximo de dos o más dispositivos, aplicaciones siempre podía ser más exigente en el futuro ¿no? Bueno, hay un problema con esto también - cuellos de botella y la simulación de cargas de trabajo superiores.

Mirando el gráfico de nuevo, vemos una serie de pruebas que empujan el ancho de banda de memoria máximo, pero este es el mayor cuello de botella en términos de rendimiento móvil. No vamos a ver resultados precisos de métrica de desempeño A si el sistema es un cuello de botella por velocidades de memoria. La memoria es también un enorme consumo de la batería, por lo que es difícil de comparar el consumo de energía bajo varias cargas si todos están haciendo diferentes demandas sobre la memoria.

samsung galaxy s6 referencia AnTuTu

Las puntuaciones Galaxy S6 altamente en Antutu, pero ¿qué significa este puntaje en realidad le dicen sobre el rendimiento?

Para tratar de eludir este problema, usted encontrará que algunos puntos de referencia dividida cargas de trabajo para probar diferentes partes, pero esto no es un buen punto de vista de la forma en que el sistema lleva a cabo en su totalidad.

Además, ¿cómo usted va sobre la precisión predecir y simular las cargas de trabajo que son más exigentes que lo que ya está ahí fuera? Algunos puntos de referencia en 3D tirar una tonelada de triángulos en una escena para simular una carga más pesada, pero las GPU no están diseñados para que el único tipo de carga de trabajo. En este tipo de situación, los resultados son potencialmente probando un atributo particular de un GPU o CPU más que otro, lo que, por supuesto, producir resultados muy diferentes de otras pruebas y puede variar ampliamente de diferentes bits de hardware. Es que no es tan fiable como una verdadera carga de trabajo del mundo, que es lo que los procesadores móviles están diseñados para, pero probando juegos básicos no siempre nos dan una buena indicación de máximo rendimiento.

Brillo Color y Consumo de energía

Incluso si Chuck evaluación comparativa de suites de fuera de la ventana nos quedamos con problemas cuando se trata de administrar la prueba utilizando juegos y cargas existentes. Brillo de la pantalla puede tener un efecto enorme en las pruebas de la batería y no todos 0% configuraciones son las mismas y que se ejecutan vídeos diferentes, incluso puede tener un efecto sobre el consumo de energía, sobre todo con una pantalla AMOLED. Escenarios del juego pueden variar de un juego a través de jugar aunque, sobre todo en los juegos con la física dinámica y jugabilidad.

Como se puede ver, hay un montón de espacio para la varianza y un montón de cosas posibles que podemos probar.

El problema con los números

Por desgracia, las pruebas se hace aún más complicada por los resultados de puntuación simples y métodos de prueba "recuadro negro" que nos impiden saber lo que realmente está pasando.

Como mencionamos antes, si es que no sabemos exactamente lo que se ha probado en realidad no podemos relacionar una puntuación a las diferencias de hardware entre los productos. Afortunadamente, algunos puntos de referencia son más abiertos que otros acerca de exactamente lo ponen a prueba, pero aún así es difícil de comparar prueba de la A a la prueba B para una imagen más redondeada.

Por no hablar de que la creciente dependencia de los números sin relación ha llevado a las empresas que intentan al juego de los resultados, al aumentar la velocidad y la optimización para los escenarios de pruebas populares. No empresas hace mucho tiempo fueron capturados a lo largo de overclocking sus partes, mientras que los puntos de referencia estaban corriendo y el software tristemente sigue siendo abierto a engaño.

AnTuTu superior GPU Q1 2015

Los puntos de referencia no nos dan una representación exacta de las diferencias de rendimiento real, pero puede ser una guía aproximada de utilidad para el ranking.

Esto ciertamente no es un problema exclusivamente relacionada con la evaluación comparativa de software, pero es más difícil para las empresas para salirse con hincapié en su hardware cuando los consumidores podrían estar ejecutando un juego o tarea durante un largo periodo de tiempo. Sin embargo, todavía hay problemas con las pruebas del "mundo real" también. FPS para los juegos es una puntuación demasiado generalizada, que no nos dice acerca de la estimulación marco o tartamudez, y todavía hay la cantidad de energía consumida a considerar. ¿Vale la pena agarrar unas 60.000 AnTuTu puntuación si la batería drena plana en menos de una hora?

¿Es la situación desesperada?

OK, así que hasta ahora he sido bastante negativa sobre los puntos de referencia, que tal vez no es realmente justo. Aunque hay problemas con la evaluación comparativa, no hay realmente una alternativa, y siempre y cuando nos damos cuenta de las deficiencias entonces podemos discernir acerca de los resultados y métodos que basamos opiniones sobre.

Una muestra saludable de las puntuaciones a partir de una variedad de fuentes es un buen lugar para empezar, y lo ideal es que tome en una mezcla de salud de los puntos de referencia de rendimiento empujar, entender las debilidades de hardware, y rematar con una buena muestra de las pruebas del mundo real repetibles. Siempre debemos recordar que el consumo de energía es la otra mitad del argumento. Los usuarios móviles se quejan constantemente la vida de la batería aún demandan dispositivos cada vez más rápidos.

En última instancia, tenemos que tomar en una buena muestra de los resultados, a partir de una variedad de fuentes y tipos de pruebas y combinarlos entre sí para formar la evaluación más precisa del rendimiento de un dispositivo.

Elephone-P6000-GameBench-Riptide

Una luz posible en este campo de otro modo oscuro y turbio es GameBench. En lugar de crear pruebas artificiales, GameBench utiliza juegos del mundo real y aplicaciones para juzgar el rendimiento de un dispositivo. Esto significa que los resultados reflejan realmente lo que los usuarios reales con con aplicaciones reales. Si quieres saber si Riptide GP2 va a funcionar mejor en el teléfono X o teléfono Y, a continuación, GameBench puede decir. Sin embargo hay algunas pegas. Como he mencionado anteriormente, las pruebas de juego no son repetibles. Si juego un juego durante 20 minutos y sigo no poder llegar al final del nivel 1, entonces los resultados serán diferentes a jugar los niveles 1 a 5, en el mismo período de tiempo. También, para la versión gratuita, al menos, los principales indicadores es fotogramas por segundo, lo que no es tan útil. Sin embargo en el lado positivo, GameBench mide automáticamente la vida de la batería. Esto significa que si el teléfono X juega Riptide GP2 en 58 fps para 2,5 horas, pero el teléfono Y la juega en 51 fps para 3,5 horas, entonces yo cojo el teléfono Y aunque su fps es ligeramente inferior.

Benchmarking como un profesional

Si quieres un ejemplo muy detallado de evaluación comparativa exacta, de ARM Vara Watt nos llevó a través de su impresionante prueba de configuración, lo que implica desnudar el teléfono y, de hecho soldando en algunas resistencias de detección de corriente en el circuito integrado de gestión de energía (PMICs) para que pudiera precisión medir la potencia consumida por cada componente durante la prueba.

Benchmark como un profesional

A partir de este tipo de configuración es posible producir resultados detallados sobre exactamente qué componente está dibujando energía durante diferentes tipos de pruebas y la cantidad de energía que se consume por cada componente.

Si juego tartamudea consumir más batería podemos ver exactamente cuánta energía se está elaborando por cada componente, para acceder mejor el trabajo que se realiza por la CPU o GPU en comparación con otras pruebas, o si la pantalla está chupando abajo todo el jugo.

Resultados de potencia de referencia detallados

Si bien esto puede o no puede ser exactamente lo que estás buscando en un rápido comparaciones de referencia, que sólo sirve para demostrar el nivel de detalle y precisión que se puede lograr por ir más allá de la comparación de los números batieron a cabo por un conjunto de pruebas.

¿Qué opinas sobre el tema de evaluación comparativa? ¿Son completamente inútil, semi-útil, o hacer que su decisión de compra basada casi exclusivamente en ellos?


» » » Tenga cuidado con los puntos de referencia, ¿cómo saber qué buscar