SEPLN 2024 | Pol Pastells [po̞l pəsˈteʎs]

La setmana passada vaig participar a la XL SEPLN (la conferència de la societat espanyola de PLN) a Valladolid. Va ser una conferència profitosa. El dimarts vam presentar la ‘overview’ de la tasca DETESTS-Dis a IberLEF 2024, ja es pot llegir l’article, i el dimecres vaig presentar un article.

Podeu veure més informació sobre els corpus a HuggingFace.

Tant la tasca com l’article tractaven sobre la detecció d’estereotips racistes en castellà. Tenim dos corpus on s’anota la presència o no d’estereotip, així com si aquest és implícit, entre d’altres anotacions. Un dels corpus constava de comentaris de notícies i l’altre de tuits.

La tasca, on es presentaven diferents equips de forma competitiva, consistia a crear un model per classificar els textos segons si contenien estereotips o no, i si eren implícits o explícits.
L’article es basava en la idea que els anotadors sovint necessiten veure el context per saber si hi ha un estereotip o per classificar-lo. En canvi, se sol ometre el context al crear models. La nostra idea era incorporar diferents tipus de context (comentaris anteriors o títol de la notícia) a models tipus BERT fent servir el token [SEP] per passar el context. Al final la cosa no va funcionar molt bé. Per tant, presentavem resultats negatius. Aquesta metodologia no és útil per millorar els models incorporant context, si més no pel nostre cas.