Hice que los motores de búsqueda comprendan los emojis (y es extrañamente útil)
He estado trabajando en búsqueda híbrida lexical más vectorial y descubrí por accidente algo sorprendente y práctico: con buenas incrustaciones semánticas se puede buscar literalmente con emojis. No es un truco; funciona porque el modelo de embeddings BGE-M3 de 1024 dimensiones aprendió relaciones semánticas entre conceptos y sus representaciones en emoji, de modo que una búsqueda con 🔑 devuelve llaves, con 🚲 bicicletas y accesorios, y con 🖨️📄 consumibles de impresión.
Cómo funciona en la práctica: rastreamos sitios y extraemos texto con Trafilatura, generamos embeddings 1024D con BGE-M3, almacenamos texto y vectores en Solr 9.6 con soporte de vectores densos, y en tiempo de consulta combinamos búsqueda léxica e indexación KNN vectorial para obtener una puntuación híbrida. La inferencia corre en una GPU tipo RTX 4000 Ada con latencias de 2 a 5 ms por cálculo de embedding y tiempo total de consulta cercano a 40-50 ms.
La clave es que BGE-M3 fue entrenado con datos multilingües y multimodales, por eso la búsqueda con emojis cruza idiomas sin necesidad de capas de traducción o detección previa: el embedding de 🔑 queda cercano a key, Schlüssel, cheie, etc. y lo mismo ocurre con consultas conceptuales como cosas para llevar en el cuello que devuelven collares, colgantes y cadenas aunque esos textos no contengan literalmente la frase usada en la consulta.
Ventajas del enfoque híbrido frente a vector puro: la búsqueda puramente vectorial es excelente para consultas difusas pero puede bajar el ranking de coincidencias exactas o confundir códigos de producto y SKUs. La combinación híbrida permite que la parte léxica priorice coincidencias exactas mientras que los vectores cubren consultas tipo no sé la palabra exacta pero sí la intención.
También añadimos funcionalidades extra como sugerencias explicativas generadas por IA: en documentación técnica una consulta tipo measure 🔥 devuelve recomendaciones concretas sobre dispositivos de medición extraídos de PDFs indexados y enriquecidos por un LLM local que corre en la misma GPU.
En Q2BSTUDIO aplicamos este tipo de soluciones a proyectos reales de comercio electrónico y búsqueda empresarial. Somos una empresa de desarrollo de software y aplicaciones a medida especializada en inteligencia artificial, ciberseguridad y servicios cloud aws y azure. Si necesitas integrar motores de búsqueda semántica, agentes IA o soluciones de ia para empresas, nuestro equipo desarrolla desde prototipos hasta productos de producción.
Ofrecemos además servicios complementarios como auditorías de ciberseguridad y pentesting, consultoría en servicios inteligencia de negocio y dashboards con power bi para visualizar resultados y KPIs. Para proyectos que requieren software a medida y aplicaciones a medida visita nuestra página de desarrollo de aplicaciones y software a medida y para soluciones de inteligencia artificial y agentes IA consulta nuestros servicios de inteligencia artificial.
Si te interesa profundizar en arquitectura técnica, optimización de embeddings o cómo integrar búsquedas con emojis y capacidades multilingües en tu negocio, en Q2BSTUDIO diseñamos soluciones escalables con seguridad, servicios cloud y capacidades de inteligencia de negocio para convertir datos en valor.
Comentarios