News Release

Cómo la lingüística computacional ayuda a entender el funcionamiento del lenguaje

Un artículo de Gemma Boleda, profesora de investigación ICREA del Departamento de Traducción y Ciencias del Lenguaje que ha publicado en la revista Annual Review of Linguistics.

Peer-Reviewed Publication

Universitat Pompeu Fabra - Barcelona

Figure 1

image: Two-dimensional view of the change in meaning of three English words, taken from Hamilton et al. (2016). view more 

Credit: upf

La semántica distribucional obtiene representaciones del significado de las palabras a partir de procesar miles de textos y extraer generalizaciones mediante algoritmos computacionales. A pesar de la popularidad de la semántica distribucional en campos como la lingüística computacional y la ciencia cognitiva, su impacto en lingüística teórica hasta ahora ha sido muy limitado.

El trabajo de Gemma Boleda, coordinadora del grupo de investigación en Lingüística Computacional y Teoría del Lenguaje (COLT) y profesora de investigación ICREA del Departamento de Traducción y Ciencias del Lenguaje de la UPF, publicado en la revista Annual Review of Linguistics, aporta un revisión crítica de los abundantes trabajos disponibles sobre semántica distribucional, poniendo especial énfasis en los resultados que son relevantes para la lingüística teórica, concretamente en tres ámbitos: cambio semántico, polisemia y composición, e interfaz gramática-semántica.

La investigación de la autora tiene como objetivo poner en conexión enfoques teóricos y computacionales para avanzar en el conocimiento colectivo sobre el funcionamiento del lenguaje. Uno de los métodos que ha investigado extensivamente es el de la semántica distribucional, que permite obtener representaciones de palabras de manera automática. Se ha demostrado que estas representaciones reflejan propiedades lingüísticas significativas, tales como, cómo son de similares dos palabras: una persona te dirá que "perro" y "cachorro" son muy similares, y en cambio "perro" y "democracia" no lo son mucho; la semántica distribucional dirá lo mismo, gracias a que induce propiedades lingüísticas a partir de textos escritos por personas. Por ello, la semántica distribucional proporciona representaciones radicalmente empíricas.

La semántica distribucional permite analizar el uso de las palabras y la evolución de su significado

La semántica distribucional proporciona un marco atractivo y complementario a otros métodos más tradicionales, no sólo debido a que es radicalmente empírica sino también por el hecho de que proporciona representaciones multidimensionales: dos palabras se pueden parecer en una dimensión de significado ("pizza" y "pasta" son tipos de comida), o en otra ("pizza" y "rueda" son redondos). Para representar todos los aspectos de significado, se necesitan representaciones multidimensionales. La semántica distribucional puede capturar los usos comunes de dos palabras, así como también sus factores diferenciales.

Una de las aplicaciones relevantes de la semántica distribucional a la lingüística teórica es la detección de cambios de significado. Si se procesan datos lingüísticos de épocas diferentes, tales como libros en inglés de 1900, de 1950, y del 1990, se puede usar la semántica distribucional para detectar automáticamente el cambio de significado que presentan algunas palabras. Por ejemplo, la palabra "gay" en inglés a principios del siglo pasado quería decir "alegre", y progresivamente se ha ido utilizando más para querer decir "homosexual".

Aspectos de la investigación en semántica distribucional que contribuyen a la teoría del lenguaje

Del análisis de los trabajos estudiados en su estudio concluye Boleda que hay suficiente evidencia para que los sólidos resultados obtenidos en semántica distribucional se puedan importar directamente a la investigación en lingüística teórica.

"Hay al menos cuatro aspectos de la investigación en semántica distribucional que pueden contribuir a la teoría lingüística. El primer aspecto es el exploratorio: las representaciones distribucionales pueden utilizarse para explorar datos a gran escala, por ejemplo examinando las relaciones de similitud entre palabras . El segundo es como herramienta para identificar casos de fenómenos lingüísticos específicos. Por ejemplo, se pueden identificar palabras que han cambiado de significado comparando las representaciones obtenidas a partir de textos de diferentes épocas. El tercero es como banco de pruebas: evaluando diferentes hipótesis lingüísticas en términos distribucionales. El cuarto, y más difícil, es el descubrimiento de nuevos fenómenos lingüísticos o tendencias teóricas relevantes en los datos", explica en su trabajo la autora.

###


Disclaimer: AAAS and EurekAlert! are not responsible for the accuracy of news releases posted to EurekAlert! by contributing institutions or for the use of any information through the EurekAlert system.