La interfaz de usuario se encuentra con la IA: lecciones aprendidas de la implementación de la imagen | Grupo Co., Ltd del nuevo comienzo de Hainan

La artista 2D de Playkot, Tatiana Mironova, ha detallado cómo el estudio implementó herramientas de generación de imágenes en su tubería para crear elementos de interfaz de usuario para Spring Valley. Esto es lo que el equipo aprendió durante este proceso y cuáles son las claras ventajas y desventajas de entrenar sus propios modelos.

Tatiana Mirónova

Todo comenzó con una pregunta de toda la empresa: ¿cómo podemos dedicar menos tiempo a las tareas actuales sin comprometer la calidad?

Muchos de nosotros habíamos explorado previamente modelos de aprendizaje profundo y herramientas genAI por puro entusiasmo, pero comprender si podíamos integrar la IA en nuestros procesos requería un enfoque más sistemático. Ahora, casi todos los equipos de Playkot están experimentando con redes neuronales para sus tareas. Compartimos experiencias en chats con temas de IA en Slack, y cuando alguien tiene un pequeño avance, adoptamos sus soluciones.

Así que hablemos de lo que hemos intentado en nuestro equipo de interfaz de usuario mientras trabajábamos en Spring Valley.

Empecé a explorar activamente las redes neuronales a principios de este año. Pasé de tres a cuatro días familiarizándome con las herramientas: comprendiendo las tecnologías y los enfoques, descifrando el lado técnico de las cosas.

Primero probé Midjourney porque parecía la opción más accesible: ya teníamos una cuenta corporativa para experimentos. Rápidamente me di cuenta de que no nos ayudaría a ahorrar tiempo en la creación de iconos: en la cuarta versión que estaba probando, la calidad de imagen dejaba mucho que desear. En la nueva quinta versión, la calidad mejoró significativamente, pero para nuestras tareas, los resultados aún requerían revisiones sustanciales.

El mayor obstáculo fue que Midjourney no podía coincidir con nuestro estilo requerido. En pocas palabras, tiene todo Internet cargado, por lo que produce resultados muy impredecibles y no puedes entrenarlo para que coincida con tu estilo.

Sin embargo, resultó que Midjourney es una herramienta auxiliar decente para conceptos o para generar elementos individuales. Si necesita comunicar una idea o encontrar alguna forma para ella, lo maneja bien.

Por ejemplo, necesitaba crear un adorno de camafeo. Pasé un tiempo en la generación y me di cuenta de que ninguno de los resultados me convenía: sería más fácil construir todo en 3D. Pero los cameos en sí mismos se veían decentes: no se destacaban del estilo, no tenían dos narices ni bocas torcidas, así que ¿por qué no usarlos?

En los programas 3D, hay una herramienta llamada mapa de desplazamiento: agrega altura a las áreas brillantes de un objeto y sangría a las áreas oscuras. Recorté rápidamente el cameo de Midjourney en Photoshop, le apliqué mi propio material y no tuve que dibujar el retrato a mano. Pasé la misma cantidad de tiempo en el ícono que planeé inicialmente, pero la imagen del cameo terminó siendo interesante, más natural.

Y aquí hay otro ejemplo: necesitaba hacer una rama con cristales. Lleva bastante tiempo pensar cómo se verá cada uno de ellos. Le di un ejemplo a Midjourney, y generó una plétora de estos cristales. Después de eso, elegí la generación que más me convenía, agregué la semilla requerida (es decir, la variable de esa generación) al indicador y rápidamente obtuve suficiente material gráfico, que finalmente usé en el icono.

Luego comencé a experimentar con Stable Diffusion. Le permite tomar como base un modelo ya creado, agregar sus imágenes y entrenarlo en este conjunto de datos. En ese momento, nuestro proyecto había acumulado muchos íconos buenos en el estilo necesario, que podrían usarse para conjuntos de datos.

Stable Diffusion tiene varios métodos de entrenamiento: extensión Dreambooth, Hypernetwork, LoRA. La idea era probar cada uno de ellos y ver qué funcionaba. Descartamos LoRA de inmediato porque es más adecuado para rostros y retratos. Sin embargo, la extensión Dreambooth funcionó bien.

Entrenar a un modelo es una empresa arriesgada. Al principio, puede tener la sensación engañosa de que lo entrenará con éxito una vez y luego cosechará los beneficios. Pero cuando empiezas a darte cuenta de cuántos detalles hay que tener en cuenta… Si ves que los resultados no son muy buenos, tienes que empezar de nuevo. Casi todos los modelos de IA son muy exigentes con las tarjetas de video, y si su computadora tiene una memoria de video limitada, el reentrenamiento tomará otras tres horas. Como resultado, cualquier error menor extiende el proceso y no hay garantía de que el resultado sea lo suficientemente bueno para usar.

Una vez puse el modelo para entrenar y me fui a dormir. Mi plan era poner una alarma, levantarme y comprobar los resultados. Me desperté a las 3 am y generó un ramo de tulipanes bastante decente. Yo estaba como, "¡Oh, finalmente algún tipo de resultado!"

Estas tres imágenes de tulipanes demostraron que el juego valió la pena:

Cuando me di cuenta de que Stable Diffusion tenía potencial, era necesario abordar el problema con el aspecto técnico del proceso. El poder de la computadora es el principal bloqueador, y no todos en nuestro equipo tienen las mismas oportunidades en este sentido. A partir de las experiencias de colegas de otras empresas, aprendimos que un método viable era asignar una computadora separada como servidor a través del cual se ejecutarían todas las generaciones.

Al mismo tiempo, probamos varios trucos de otros entusiastas de la IA: revisamos una gran cantidad de tutoriales, buscamos otros modelos adecuados, pero finalmente encontramos otra solución: Scenario.gg, un servicio basado en Stable Diffusion que se especializa en activos de juegos.

Los servidores con mayores capacidades técnicas resolvieron nuestro problema con la energía, y también hubo una buena ventaja: mientras que Stable Diffusion puede hacer que un usuario principiante, que no ha profundizado en el aprendizaje automático antes, se extrañe, la interfaz de Scenario.gg es intuitivamente comprensible y ya adaptado a nuestras peticiones. Puede elegir si desea entrenar el modelo para el arte conceptual, la ilustración o la generación de activos.

En servidores externos, el proceso fue más rápido y finalmente comenzamos a obtener resultados más consistentes. El método de imagen a imagen funcionó mejor, donde carga la imagen original y obtiene el resultado en el estilo en el que se entrenó al modelo. Le contaré sobre tareas específicas en las que este método nos ayudó.

Por extraño que parezca, los iconos más difíciles de producir son todo tipo de productos orgánicos: plantas, frutas y verduras, alimentos, flores. Puedes pensar, bueno, son solo flores, ¿son tan difíciles de dibujar? Pero construir formas orgánicas lleva mucho tiempo. Y ahí es donde sobresalió el modelo de IA.

Para una de mis tareas, necesitaba dibujar un ramo de novia. Antes de eso, ya había recopilado un conjunto de datos de nuestros íconos de flores:

Usando el método img2img, alimenté un ramo de referencia al modelo para que lo analizara, procesara y fusionara con nuestro estilo.

Establecí el número máximo de generaciones en 16 a la vez. Mientras estaba trabajando en otra tarea, me generó una gran cantidad de opciones. Algunos de ellos resultaron ser bastante buenos: satisfactorios en términos de forma y masa, color y representación. Estos son los mejores resultados que seleccioné:

Como puede ver, las cintas de los ramos resultan bastante únicas, pero esto es exactamente lo que se puede corregir rápidamente a mano. Como resultado, después de las revisiones, este es el aspecto del ramo cuando lo agregamos al juego:

El objetivo se logró y ahorré casi el 50% del tiempo en esta tarea. De forma manual, habría estado dibujando un ramo de este tipo durante ocho a 10 horas, pero usando modelos de aprendizaje profundo, puede generar íconos en 30-40 minutos, seleccionar los mejores, hacer correcciones mínimas y completar la tarea en cuatro horas (no contando una hora más para compilar un conjunto de datos).

O aquí hay una corona de flores, una tarea muy urgente que completé en cuatro horas, generando diferentes opciones mientras me ocupaba de otra tarea.

Descargo de responsabilidad: esto no funcionará tan bien para todos los objetos. En primer lugar, una gran ventaja es que hemos recopilado un buen conjunto de datos de nuestros propios íconos con flores: diversos, con buena representación y formas, y en un estilo unificado. Y en segundo lugar, lo más probable es que el modelo básico de Stable Diffusion ya contenga una gran cantidad de flores. En términos generales, combinamos todo lo mejor en este ramo.

La comida es otra gran categoría para Stable Diffusion. Digamos que necesitamos crear un ícono de hamburguesa: primero configuré los parámetros con un mensaje y los resultados fueron lo más extraños posible: mire los platos con maíz en la captura de pantalla.

Pero el método img2img funcionó bien: encontré una foto adecuada, la procesé rápidamente y Stable Diffusion combinó la referencia con el estilo necesario:

Seleccioné los resultados más exitosos de la generación. Por supuesto, está claro que las empanadas aquí son muy extrañas y hay demasiadas semillas de sésamo. Y la solicitud de los diseñadores del juego fue una hamburguesa vegetariana: en Spring Valley, tenemos el concepto de que no matamos animales, realmente no capturamos peces y no comemos carne.

Corregí todo esto e hice el ícono menos "ruidoso" manualmente, pero aun así ahorré alrededor de una hora y media a dos horas de tiempo. Esta fue la versión final que entró en el juego:

Otro ejemplo exitoso es un pastel de naranja. Aquí está el conjunto de datos que creé basado en nuestros íconos de pastelería:

Estos son los resultados que recibí del modelo:

Y así es como se ve el pastel después de algunas correcciones: ya se incorporó al juego:

La combinación de "Difusión estable + un servicio útil con servidores potentes + el método img2img" puede cambiar las reglas del juego para los equipos de interfaz de usuario, siempre que hagan algunos deberes: seleccionen cuidadosamente los conjuntos de datos e inviertan algo de tiempo en capacitación.

Digamos, por ejemplo, que me asignaron crear un ícono con un racimo de plátanos. Ya tenemos un conjunto de datos decente: hay muchos íconos de frutas en nuestro juego. Dada la referencia correcta, el modelo proporciona un excelente boceto preliminar: buena precisión de color, textura, irregularidades, incluso la parte superior de la banana es verde. Claro, hay ajustes que hacer, pero no tomarán mucho tiempo.

El único problema aquí son los derechos de autor. Si se utiliza como referencia una composición de stock reconocible, es necesario verificar meticulosamente si la licencia permite utilizar esta imagen y buscar alternativas con una licencia Creative Commons.

Estas cerezas de arriba, por ejemplo, encajan bien en nuestra estética, y las ediciones necesarias aquí serían mínimas. Pero es fácil ver que están hechos de una foto de archivo, casi una coincidencia directa. ¿Qué debe hacer un artista en este caso? Collage, modifica, considera qué elementos se pueden quitar, transforma esto para lograr un resultado diferente. Esto también requiere tiempo adicional.

El lado legal de la cuestión es, en principio, un área grande y poco explorada. Por ejemplo, todas las obras generadas por redes neuronales, especialmente en la plataforma Midjourney, completamente abierta al espectador, no están sujetas a derechos de autor. En términos legales, ahora puedo ir a Midjourney, imprimir cualquier generación en camisetas para la venta o ponerlo en un juego. Y si alguien reconoce dónde se generó esto, lo encuentra a través de palabras clave y usa la misma ilustración en su juego, ¿quién tendría razón? Es difícil predecir cómo se desarrollarán los eventos en esta área, y esto representa otro riesgo potencial.

Cuanto más nos alejamos de las formas orgánicas, peores tienden a ser los resultados. Stable Diffusion tiene dificultades para construir correctamente formas y líneas rectas, por lo que todavía tengo que lograr resultados decentes para todos los elementos que requieren una formación precisa.

Cada uno de nosotros ha visto una botella miles de veces, y el ojo humano detecta inmediatamente cualquier distorsión. Particularmente en un ícono, donde un solo objeto está confinado a un cuadrado: si la botella se ve torcida, todos lo notarán.

En la captura de pantalla a continuación, he marcado con marcas de verificación moradas los elementos que potencialmente podría usar en mi trabajo. Sin embargo, esas son solo tres imágenes de la mayor parte de las generaciones. Las probabilidades aumentan de que perderá el tiempo y terminará sin nada, ya que aún deberá corregir el resultado con formas en Photoshop. Sería más fácil dibujar esta botella con esas mismas formas o modelarla en 3D de acuerdo con una canalización familiar.

Los modelos de aprendizaje profundo sobresalen en la repetición. Usan repetidamente los elementos con los que los alimentaste, y si encuentran una botella de una forma particular una vez, continuarán generando esa forma y no producirán nada fundamentalmente nuevo.

Otro desafío es explicarle al modelo exactamente lo que ve y cómo funciona. Existen diferentes métodos de entrenamiento, pero el más práctico consiste en analizar las imágenes cargadas y crear una descripción de texto para cada una. La persona que entrena el modelo puede profundizar en este archivo de texto y verificar la descripción.

A veces, la IA comete errores o no entiende lo que está viendo. Por ejemplo, un texto podría decir: "Una botella verde con un corcho de madera y líquido dentro", cuando la botella es en realidad transparente. Si dejas pasar esto, cada vez que le pidas una botella verde, seguirá sirviendo botellas transparentes, pase lo que pase. Puede verificar manualmente cada descripción, pero ¿qué sucede si tiene cientos de imágenes de este tipo? El costo del ajuste fino es elevado.

Mostraré otro ejemplo de una generación fallida en un gran conjunto de datos: aquí puede notar que a veces el resultado coincide con la estética, pero no puede averiguar qué se representa. Aunque puedo reconocer de dónde obtuvo la IA elementos individuales.

Estas son las lecciones que aprendimos en el proceso de experimentar con modelos generativos:

En resumen, todavía estamos bastante lejos del punto en que los modelos generativos pueden hacer nuestro trabajo por nosotros, pero podemos usarlo como una herramienta más. Además de los íconos orgánicos, en los que ya somos bastante buenos, podemos generar materiales auxiliares, patrones, carteles, fondos y partes de fondos; todas estas rocas, árboles y flores generalmente requieren mucho tiempo, es meticuloso. trabajar. Generarlos en el estilo requerido y hacer un collage es mucho más rápido.

Todavía no hemos escalado estos enfoques en todo el equipo, por lo que no están incorporados al 100 % en nuestros procesos. Creemos que es demasiado pronto para abordar esto hasta que hayamos explorado todas las posibilidades. Pero creo que los modelos de IA permitirán a los artistas crear, en cierto sentido, cosas más complejas.

Cuando planifico una tarea, estimo lo que puedo lograr dentro del marco de tiempo dado. Es como el meme con dos vaqueros, donde uno es el gerente y el otro es el diseñador. "¿Cuánto tiempo pasarás en esta tarea?" vs. "¿Cuánto tiempo necesito dedicar a esta tarea?" Durante la misma cantidad de tiempo, podremos crear cosas más complejas. Y eso es una gran ventaja.

¿Tienes una historia que te gustaría compartir? Contáctenos en[correo electrónico protegido]

[correo electrónico protegido]