A gépi fordítás minőségének értékelésénél nemcsak a különböző fordítási rendszerek eredményeinek összehasonlítása fontos, hanem annak ellenőrzése is, hogy a talált különbségek statisztikailag szignifikánsak-e. Ez lehetővé teszi annak felmérését, hogy a kapott eredmények érvényesek-e, és általánosíthatók-e más adatokra.
Ebben a cikkben áttekintjük a fordítás minőségének értékelésére szolgáló két leggyakoribb mérőszámot, a BLEU-t és a COMET-et, és elemezzük, hogyan lehet tesztelni a két fordítási rendszer közötti különbségek statisztikai szignifikanciáját ezen mérőszámok segítségével.

A BLEU és a COMET statisztikai jelentősége
A BLEU (Bilingual Evaluation Understudy) mérőszám úgy értékeli a fordítás minőségét, hogy összehasonlítja a lefordított szöveg n-grammjait a referencia (emberi) fordítás n-grammjaival. A “Yes, We Need Statistical Significance Testing” tanulmány szerint, ahhoz, hogy a BLEU-metrika statisztikailag szignifikáns javulását állíthassuk a korábbi munkákhoz képest, a különbségnek nagyobbnak kell lennie, mint 1,0 BLEU-pontszám. Ha egy “nagyon szignifikáns ” javulást “p-értéknek tekintünk < 0,001”, akkor a javulásnak 2,0 BLEU-pontnak vagy nagyobbnak kell lennie.
Egy másik széles körben használt mérőszám, a COMET (Crosslingual Optimised Metric for Evaluation of Translation) gépi tanulási modellt használ a fordítás minőségének értékelésére a referenciafordításhoz képest. A vizsgálat kimutatta, hogy az 1 - 4 pontos különbség statisztikailag jelentéktelen lehet, azaz a hibahatáron belül. Még a 4,0 COMET pontszám különbsége is jelentéktelen lehet.
Ezek az eredmények fontos gyakorlati következményekkel járnak a gépi fordítórendszerek fejlesztői számára. A numerikus mérőszámok egyszerű összehasonlítása félrevezető következtetésekhez vezethet a fordítás minőségének javításával kapcsolatban. Ehelyett statisztikai teszteket kell végezni annak megállapítására, hogy a megfigyelt különbségek valóban értelmesek-e.
Metrika kiválasztása a fordítási rendszerek összehasonlításához
A “Szállítani vagy nem szállítani című cikkben: A gépi fordítási ” automatikus mérőszámainak kiterjedt értékelésea Microsoft kutatói azt vizsgálták, hogy a gépi fordítás minőségének értékelésére szolgáló mérőszám melyik korrelál a legjobban a professzionális fordítók értékelésével. Ennek érdekében a következő kísérletet végezték el.
A célnyelvben jártas szakfordítók először manuálisan, utószerkesztés nélkül fordították le a szöveget, majd egy független fordító megerősítette e fordítások minőségét. A fordítók a szövegkörnyezetet más mondatokból látták, de a mondatokat külön fordították.
A tanulmány eredményei szerint a fordítást referenciaváltozat alapján értékelő COMET metrika mutatta a legmagasabb korrelációt és pontosságot a professzionális fordítók értékeléseihez képest.
A cikk szerzői azt is tanulmányozták, hogy a különböző gépi fordítórendszerek minőségének összehasonlításakor melyik mérőszám adja a legnagyobb pontosságot. Eredményeik szerint a COMET a legpontosabb mérőszám a fordítórendszerek egymással való összehasonlítására.

Az eredmények közötti különbségek statisztikai szignifikanciájának tesztelésére a szerzők a “Statistical Significance Tests for Machine Translation Evaluation” cikkben leírt megközelítést alkalmazták.
Nyilvánvaló, hogy a COMET metrika a legmegbízhatóbb eszköz a gépi fordítás minőségének értékelésére, mind az emberi fordítással való összehasonlításkor, mind a különböző fordítórendszerek egymással való összehasonlításakor. A következtetés fontos a gépi fordítórendszerek fejlesztői számára, akiknek objektíven kell értékelniük és összehasonlítaniuk modelljeik teljesítményét.
Statisztikai szignifikancia tesztelés
Fontos meggyőződni arról, hogy a transzlációs rendszerek között megfigyelt különbségek statisztikailag szignifikánsak, azaz nagy valószínűséggel nem véletlenszerű tényezők eredménye. Ebből a célból Philipp Koehn a bootstrap módszer használatát javasolja az övében cikk “Statisztikai szignifikancia tesztek gépi fordításhoz Evaluation”.
A bootstrap újramintavételezési módszer egy cserével végzett mintavételen alapuló statisztikai eljárás, amely meghatározza a minta varianciájára, átlagára, szórására, konfidenciaintervallumaira és egyéb szerkezeti jellemzőire vonatkozó mintabecslések pontosságát (előfeszítését). Sematikusan a bootstrap módszer a következőképpen ábrázolható

A statisztikai szignifikancia tesztelésére szolgáló algoritmus:
1. Az eredeti mintából véletlenszerűen azonos méretű bootstrap minta jön létre, ahol egyes megfigyelések többször is rögzíthetők, mások pedig egyáltalán nem.
2. Minden bootstrap mintára kiszámítják egy metrika (pl. BLEU vagy COMET) középértékét.
3. A bootstrap mintavétel és az átlagok kiszámításának eljárása sokszor megismétlődik (tíz, száz vagy ezer).
4. A kapott átlagkészletből kiszámítják a teljes átlagot, amelyet a teljes minta átlagának tekintenek.
5. Az összehasonlított rendszerek átlagértékei közötti különbséget kiszámítjuk.
6. Az átlagok közötti különbségre konfidenciaintervallumot állítunk össze.
7. A statisztikai kritériumok annak értékelésére szolgálnak, hogy az átlagok különbségének konfidenciaintervalluma statisztikailag szignifikáns-e.
Gyakorlati Alkalmazás
A fent leírt megközelítést az Unbabel/COMET könyvtár COMET metrikájára valósítjuk meg, amely a COMET metrika kiszámítása mellett lehetőséget ad a kapott eredmények statisztikai szignifikanciájának tesztelésére is. Ez a megközelítés fontos lépés a gépi fordítórendszerek megbízhatóbb és érvényesebb értékelése felé. A mérőszámok egyszerű összehasonlítása gyakran félrevezető lehet, különösen akkor, ha a különbségek kicsik.
A statisztikai elemzési módszerek, például a bootstrap alkalmazása fontos lépés a gépi fordítórendszerek teljesítményének objektív értékelésében és összehasonlításában. Ez lehetővé teszi a fejlesztők számára, hogy megalapozottabb döntéseket hozzanak az optimális megközelítések és modellek kiválasztásakor, és megbízhatóbb eredményt mutat be a felhasználóknak.
Következtetés
Ezért a gépi fordítórendszerek összehasonlításakor fontos statisztikai módszerek alkalmazása az értelmes fejlesztések és a véletlenszerű tényezők elkülönítésére. Ez objektívebb értékelést ad a gépi fordítási technológia fejlődéséről.