En el noveno día del reto, un hallazgo colateral ha sido este calculador de tokens. Más allá de la curiosidad de ver cómo se agrupan las palabras en tokens, pone de manifiesto que los modelos generativos preentrenados como GPT no entienden texto realmente. Cada token es un número, una posición en un hiperespacio de muchas dimensiones. La proximidad con otros tokens genera una probabilidad de ser el siguiente elegido para construir lo que nosotros vemos como texto, imágenes o código. Las palabras se convierten en tokens, pero cada token es un número que se ubica en una posición del espacio. Eso es lo que trabajan los GPT, números que tienen identificadores y están situados en el hiperespacio con mayor o menor proximidad a otros. No entienden las palabras literalmente. Esto me ayuda a explicar cómo funcionan. También he conocido más en detalle la API de OpenAI y he seguido dos tutoriales. En uno había definiciones y enlaces, como la descripción de embeddings, útiles para búsquedas y agrupación, cosas vinculadas a mis casos de uso. Los embeddings son importantes. También da una idea de cuánto equivale un token, unos 4 caracteres, y que un token son unos 3/4 de una palabra inglesa. Con eso puedo estimar tokens y carga de trabajo para los modelos. Es importante saber los límites de tokens de cada modelo. En GPT se cuentan tokens tanto del prompt como de la respuesta generada. En embeddings solo del prompt. He probado códigos de ejemplo de Python de un tutorial y me han funcionado en Colab. Por último, he obtenido unos 10 enlaces interesantes para consultar en el futuro, que me llevarán unos 2-4 días más del reto. #Reto21dias #IAgenerativa
Visitas: 54