Member-only story

Introducción a Word2vec (skip gram model)

Gonzalo Ruiz de Villa
6 min readMay 18, 2018

--

Motivación de Word2vec

Los sistemas de procesamiento de imágenes o de audio trabajan con conjuntos de datos multidimensionales muy ricos en información que se codifican como vectores. Estos vectores tendrán, por ejemplo, las intensidades de los pixeles en los distintos colores, o coeficientes espectrales para audio. Sin embargo, cuando se trata de procesamiento de lenguaje natural, las palabras se tratan como símbolos individuales y discretos. Así por ejemplo, podríamos representar “sol” con id343 y “luna” con id432. Las codificaciones son arbitrarias y no proporcionan información sobre las relaciones que pueden existir en entre las distintas entidades. Peor aún, la representación como ids discretos tiene como consecuencia una dispersión de los datos importante por lo que implica que los entrenamientos necesitan más datos para ofrecer buenos modelos.

Una representación de las palabras alternativa son los Vector space models (VSMs). Los VSM pretenden representar las palabras como un vector en un espacio multidimensional de forma que las palabras similares o relacionadas se encuentren representadas por puntos cercanos. De esta forma capturamos información semántica, puesto que, por ejemplo, palabras como “rojo”, “negro” y “blanco” se encontrarán en una misma zona de ese espacio multidimensional y lo mismo pasaría con palabras como…

--

--

Gonzalo Ruiz de Villa
Gonzalo Ruiz de Villa

Written by Gonzalo Ruiz de Villa

Engineer, Google Developer Expert , co-founder of Adesis Netlife, Chlydro and Kenobi Ventures. CTO @ GFT Group

Responses (2)