Imagina que gestionas una tienda online o un sitio de contenidos y un usuario busca la frase holiday gifts pero tu catálogo solo contiene títulos como Christmas stocking, December sale o winter celebration bundle. Una búsqueda por palabras clave clásica puede fallar si no hay coincidencias exactas. Ahí es donde entran los embeddings, que permiten buscar por significado en lugar de por coincidencia literal de palabras.

Los embeddings convierten texto en vectores numéricos que capturan el significado semántico. Al comparar estos vectores con métricas como la similitud coseno es posible identificar ítems relacionados aunque usen palabras distintas. Casos de uso habituales incluyen búsqueda semántica, sistemas de recomendación, detección de duplicados, chatbots y clasificación de intenciones.

Puedes imaginar los embeddings como coordenadas en un mapa de significados. Cada palabra o frase se convierte en un punto dentro de un espacio de alta dimensión donde las proximidades representan similitud semántica. Los grandes modelos de lenguaje aprenden a producir estos vectores analizando enormes corpus de texto y observando cómo se usan las palabras en contexto. Si dos términos aparecen en contextos parecidos, sus embeddings tienden a estar próximos.

Por ejemplo Christmas y December festivity suelen aparecer en oraciones sobre fiestas, familia, regalos y celebraciones, por lo que sus representaciones numéricas quedan cerca. Al comparar vectores con similitud coseno se cuantifica cuánto se alinean sus significados: valores cercanos a 1 indican relación semántica fuerte y valores bajos indican poca relación.

En este artículo simplificamos el concepto usando palabras sueltas para ver la similitud entre términos sencillos, pero en sistemas reales es más habitual usar oraciones o descripciones cortas. El contexto aporta significado: Apple puede ser fruta o empresa y una oración resuelve esa ambigüedad. Las oraciones también capturan negaciones y matices que los vectores de palabra suelta no consiguen, por ejemplo not good frente a good.

Situaciones donde conviene preferir embeddings de oraciones: palabras ambiguas como bank, negaciones, intención de usuario o frases completas como como devuelvo mi pedido. En estos casos las oraciones aportan desambiguación y riqueza semántica.

Herramientas empleadas en el ejemplo: PHP, Neuron AI y Ollama. Usamos PHP por su facilidad de ejecución e integración con las utilidades RAG de Neuron AI. Neuron AI ofrece envoltorios para generar embeddings, calcular similitud vectorial y facilitar RAG. Ollama permite ejecutar el modelo de embeddings de forma local, por ejemplo nomic-embed-text.

Requisitos e instalación: tener PHP 8 o superior y Composer instalados. Ejecutar composer require neuron-core/neuron-ai. Tener Ollama en ejecución: ejecutar ollama serve y traer el modelo con ollama pull nomic-embed-text.

En el ejemplo se compara el término Christmas con una lista de palabras relacionadas y no relacionadas: Christmas, December festivity, New Year, Easter, Car, Bicycle, Banana. La expectativa es que la similitud entre Christmas y December festivity sea alta, mientras que con Banana sea muy baja.

Conceptualmente los pasos son los siguientes: generar el embedding del término de referencia, generar embeddings para cada elemento de la lista y calcular la similitud coseno entre el vector de referencia y cada vector de la lista. Neuron AI proporciona funciones para obtener embeddings y calcular la similitud de manera directa, facilitando este flujo en PHP.

Un ejemplo de salida típica puede mostrar sim(Christmas, Christmas) igual a 1 y valores decrecientes para términos menos relacionados, por ejemplo sim(Christmas, December festivity) alrededor de 0.8 y sim(Christmas, Banana) por debajo de 0.5. Los números exactos dependen del modelo y de la configuración.

Recomendaciones prácticas: en proyectos de búsqueda semántica o recomendación conviene almacenar los vectores en una base vectorial como Pinecone o Weaviate para consultas rápidas y escalables. Visualizar embeddings con PCA o UMAP ayuda a entender clústeres y relaciones. Prueba distintos modelos de embeddings para ver cuál se ajusta mejor a tu dominio.

Sobre Q2BSTUDIO. Somos una empresa de desarrollo de software especializada en aplicaciones a medida y software a medida, con experiencia en implementación de soluciones basadas en inteligencia artificial y ciberseguridad. Ofrecemos servicios integrales desde consultoría hasta puesta en producción, incluyendo servicios cloud aws y azure, servicios inteligencia de negocio y soluciones de IA para empresas. Si buscas desarrollo de aplicaciones a medida puedes visitar software a medida y si te interesan nuestras soluciones de IA visita Inteligencia artificial. También trabajamos en proyectos de automatización, agentes IA y dashboards con Power BI para impulsar la inteligencia de negocio.

Cuándo usar embeddings: cuando necesitas recuperar contenido relacionado aunque use palabras distintas, para recomendaciones, clustering o deduplicación por significado. Evítalos si solo necesitas coincidencia exacta de palabras o cuando un conjunto de reglas sencillo es suficiente.

Checklist antes de ejecutar tu demo: arrancar Ollama con ollama serve, traer el modelo con ollama pull nomic-embed-text, instalar Neuron AI con Composer, y ejecutar tu script PHP que obtiene embeddings y calcula similitud coseno. Tras esto verás métricas que reflejan el grado de similitud semántica y tendrás la base para construir búsqueda semántica, recomendaciones o agentes conversacionales con sentido real.

Si quieres que Q2BSTUDIO te acompañe en el diseño e implementación de una solución de búsqueda semántica, integración de embeddings en tus sistemas o un proyecto a medida que combine inteligencia artificial, ciberseguridad y servicios cloud estamos disponibles para asesorarte y ejecutar la solución completa.