Microsoft Bing ahora ofrece el servicio de corrección ortográfica a más de 100 idiomas

Microsoft quiere que Bing ofrezca a los usuarios de todo el mundo la mejor experiencia de búsqueda. Con diversidad de clientes en todo el planeta que continuamente emiten consultas en más de 100 idiomas. Comentan que en la búsqueda han encontrado que alrededor del 15% de las consultas enviadas por los clientes tienen errores ortográficos. Cuando las consultas se escriben incorrectamente, hacen coincidir el conjunto incorrecto de documentos y desencadenan respuestas incorrectas, lo que puede producir una página de resultados subóptima para los clientes. Por lo tanto, la corrección ortográfica es el primer componente de la pila de búsqueda de Bing porque la búsqueda de la ortografía correcta de lo que significan los usuarios mejora todos los componentes de búsqueda descendentes. La tecnología de corrección ortográfica impulsa varias experiencias de productos en Microsoft. Dado que es importante para microsoft proporcionar a todos los clientes acceso a una corrección ortográfica precisa y de última generación, estamos mejorando la búsqueda para que sea inclusiva de más idiomas de todo el mundo con la ayuda de la IA a escala.

Han tenido corrección ortográfica de alta calidad para unas dos docenas de idiomas durante bastante tiempo. Sin embargo, eso dejó a los usuarios que emitieron consultas en muchos más idiomas tratando con resultados inferiores o corrigiendo manualmente las propias consultas. Con el fin de hacer Bing más inclusivo, se propusieron ampliar el servicio de corrección ortográfica actual a más de 100 idiomas, estableciendo la misma barra alta para la calidad que establece para los dos docenas de idiomas originales.

Hemos descubierto que necesitamos un gran número de puntos de datos para entrenar un modelo de corrección ortográfica de alta calidad para cada idioma, y obtener datos en más de 100 idiomas sería increíblemente difícil logísticamente, por no mencionar costoso tanto en tiempo como en dinero.

Un corrector ortográfico para más de 100 idiomas en Microsoft

A pesar de estos desafíos, recientemente han lanzado nuestros modelos de corrección ortográfica multilingüe a gran escala en todo el mundo con alta precisión y alta recuperación en más de 100 idiomas! Estos modelos, tecnología que llaman colectivamente Speller100, están ayudando actualmente a mejorar los resultados de búsqueda de estos idiomas en Bing. Este es un gran paso adelante, especialmente si se tiene en cuenta que la corrección ortográfica estaba disponible por sólo unas pocas docenas de idiomas hace poco tiempo. Esto fue posible aprovechando los recientes avances en IA, particularmente el aprendizaje de disparo cero combinado con tareas de preentrenamiento a gran escala cuidadosamente diseñadas, y también nos basamos en teorías lingüísticas históricas.

Tradicionalmente, las soluciones de corrección ortográfica han aprovechado la teoría de canales ruidosos y han realizado grandes mejoras en la construcción de mejores modelos estadísticos de error y modelos de lenguaje. Los motores de búsqueda han utilizado durante mucho tiempo documentos web para modelos de lenguaje robustos. Para modelos de error precisos y de alto rendimiento, los motores de búsqueda han aprovechado en gran medida los comentarios de los usuarios sobre los enlaces de recurso de autocorrección. Esta práctica ha sido muy eficaz, especialmente para los idiomas donde los datos de comentarios de los usuarios se han recopilado a gran escala. Para un idioma con muy poca presencia web y comentarios de los usuarios, es difícil recopilar una cantidad adecuada de datos de entrenamiento.

Con el fin de crear soluciones de corrección ortográfica para estos últimos tipos de idiomas, los modelos no pueden basarse únicamente en datos de entrenamiento para aprender la ortografía de un idioma. La base de Speller100 se basa en el concepto de familias de idiomas, para nuestros propósitos, grupos más grandes de idiomas basados en similitudes que comparten varios idiomas. Otro concepto, el aprendizaje sin disparos, permite que un modelo aprenda y corrija la ortografía con precisión sin ningún dato de entrenamiento etiquetado específico del idioma adicional. Imagina que alguien te había enseñado a deletrear en inglés y automáticamente aprendiste a deletrear también en alemán, holandés, afrikaans, escocés y luxemburgués. Eso es lo que el aprendizaje de disparo cero permite, y es un componente clave en Speller100 que nos permite expandirnos a idiomas con muy pocos o ningún dato.

Desbloqueo del poder del preentrenamiento basado en tareas

Hemos visto avances significativos en el procesamiento del lenguaje natural (PNL) en el último año a través de grandes redes Transformer como BERT, UniLM y DeBERTa. Estos modelos se entrenan con tareas como modelo de lenguaje enmascarado (MLM), predicción de siguiente frase y traducción. Aunque los algoritmos de segmentación de subpalabras WordPiece o SentencePiece de uso común descomponen las palabras en constituyentes más pequeños, las tareas de preentrenamiento existentes funcionan a nivel de palabra, frase o incluso frase para la comprensión semántica. La ortografía, sin embargo, es una tarea completamente diferente.

En términos generales, hay dos tipos de errores ortográficos. Uno es un error que no es de palabra, y el otro es un error de palabra real. El error sin palabras se produce cuando una palabra no está en el vocabulario de un idioma determinado en absoluto; error de palabra real se produce cuando la palabra en sí es válida, pero no encaja en el contexto más grande. Ambos errores son mutaciones a nivel de carácter a una distancia de edición razonable de las palabras deseadas.

En el fondo, la corrección ortográfica consiste en crear un modelo de error y un modelo de idioma. La tarea MLM hace muy buenos modelos de lenguaje, incluso para aquellos idiomas con muy poca presencia web. Sin embargo, no hemos visto mucha innovación en el modelo de error para las tareas de preentrenamiento. Para la corrección ortográfica multilingüe basada en la familia de idiomas a gran escala, diseñamos una tarea de preentrenamiento de corrección ortográfica para enriquecer los modelos basados en Transformer estándar.

La corrección ortográfica es un problema de secuencia a secuencia (s2s) que convierte un texto con errores tipográficos en su forma correcta. Además, si los errores tipográficos se consideran ruidos en el texto, la corrección ortográfica puede considerarse como un proceso de denoción que convierte texto dañado en su texto original. El aprendizaje profundo es la tecnología de última generación utilizada para aplicaciones s2s.

Nuestro enfoque de aprendizaje profundo está inspirado en BART de Facebook AI Research, un preentrenador autoencoder s2s que denota a nivel de palabras como preentrenamiento para la generación de lenguaje natural (NLG), traducción y comprensión. BART se entrena corrompiendo texto con una función de ruido arbitrario y aprendiendo un modelo para reconstruir el texto original. Nuestro modelo difiere de BART en que enmarcamos la corrección ortográfica como un s2s a nivel de carácter que denota el problema del autoencoder y creamos datos de preentrenamiento con mutaciones a nivel de carácter con el fin de imitar errores ortográficos. Hemos diseñado funciones de ruido para generar errores comunes de rotación, inserción, eliminación y reemplazo. Vea la figura siguiente para ver ejemplos de estos errores comunes.

El uso de una función de ruido redujo significativamente nuestra demanda en anotaciones etiquetadas por humanos, que a menudo se requieren en el aprendizaje automático. Esto es bastante útil para los idiomas para los que tenemos pocos o ningún dato de entrenamiento. Con una función de ruido, podemos obtener un modelo preentrenado (ver figura a continuación), y luego ajustar el modelo se convierte en escenarios de aprendizaje de disparo cero o de pocos disparos para esos idiomas.

Gracias a las funciones de ruido, ya no necesitamos un gran corpus de consultas mal orquetadas y podemos conformarnos con texto regular extraído de páginas web. Este texto se puede extraer fácilmente a través del rastreo web, y hay una cantidad suficiente de texto para la formación de cientos de idiomas. A continuación, se hace práctico construir un corrector ortográfico utilizando un modelo s2s de base profunda para estos idiomas.

Esta tarea de preentrenamiento demuestra ser un primer paso sólido para resolver la corrección ortográfica multilingüe para más de 100 idiomas. Ayuda a alcanzar el 50% de la retirada de correcciones para los principales candidatos en idiomas para los que no tenemos datos de formación.

Utilización de la familia de un idioma para un aprendizaje eficiente y eficaz de disparo cero

El 50% de la retirada obviamente no es lo suficientemente bueno para un sistema de producción. En el caso de Bing, donde aproximadamente el 15% de las consultas están mal escritas, eso significaría que el 7,5% de todas las consultas no tendrían una corrección ortográfica adecuada. Para los idiomas con cero datos de entrenamiento, nuestro próximo diseño también resulta crucial. Aprovechamos la propiedad de aprendizaje sin disparos de modelos profundos de manera efectiva y eficiente mediante la producción de modelos para dirigirse a las familias de idiomas.

Es bien sabido en el mundo de la lingüística histórica que las lenguas rara vez están aisladas. Se sabe que la mayoría de los idiomas del mundo están relacionados con otros. Un grupo de idiomas descendientes del mismo antepasado forman una familia lingüística. Comparten mucho en ortografía—la ortografía y otras convenciones escritas de un idioma— que proviene de similitudes morfológicas y fonéticas.

A continuación se muestra una ilustración de similitudes ortográficas entre idiomas en los idiomas germánicos.

Esta similitud ortogonal, morfológica y semántica entre los idiomas del mismo grupo hace que un modelo de error de aprendizaje de disparo cero sea muy eficiente y eficaz. Los datos de formación de modelos de error de alta calidad son abundantes en idiomas de alto recurso, como el inglés y el alemán en la familia de lenguas germánicas; también tenemos una cantidad razonable de datos en holandés; sin embargo, en la misma familia lingüística, tenemos una grave escasez de datos de formación en afrikaans o luxemburgueses. El aprendizaje de disparo cero hace posible la predicción ortográfica de aprendizaje para estos idiomas de bajo recurso o sin recursos. Simplemente construimos una docena de modelos basados en la familia de idiomas para maximizar la ventaja de disparo cero y mantener el modelo lo suficientemente compacto como para tiempo de ejecución. Esto demuestra ser óptimo tanto para la relevancia como para la ingeniería.

El impacto de la experiencia del usuario de Speller100

Creemos que Speller100 es el sistema de corrección ortográfica más completo jamás fabricado en términos de cobertura y precisión del lenguaje. Con esta tecnología, hemos mejorado los resultados de búsqueda para todos los usuarios de Bing mediante la ampliación de la corrección ortográfica precisa a más de 100 idiomas. Hemos observado una mejora de dos dígitos tanto en la precisión de corrección ortográfica como en la recuperación. Después de realizar pruebas de A/B en línea de Bing, estos son los resultados:

El número de páginas sin resultados se redujo hasta en un 30%.
El número de veces que los usuarios tuvieron que reformular manualmente su consulta se redujo en un 5%.
El número de veces que los usuarios hicieron clic en nuestra sugerencia ortográfica aumentó de un solo dígito al 67%.
El número de veces que los usuarios hicieron clic en cualquier elemento de la página pasó de un solo dígito al 70%.

Estas son grandes indicaciones de que hemos hecho que la experiencia de nuestros usuarios mejor! El envío de Speller100 a Bing es obviamente sólo el primer paso. Esperamos implementar esta tecnología en muchos más productos de Microsoft pronto.

Si está interesado en aplicar las últimas técnicas de aprendizaje profundo para innovar en la búsqueda, nuestro equipo de búsqueda e IA está contratando a nivel mundial.

Tags: Tecnología, Microsoft, Microsoft Bing, Speller100, Corrección ortográfica