პროექტის ხელმძღვანელი პროფესორი თინათინ მარგალიტაძე
„ლექსიკოგრაფიისა და ენობრივი ტექნოლოგიების ცენტრის“ გუნდი 2018 წლიდან მუშაობს ინგლისურ-ქართული/ქართულ-ინგლისური მანქანური თარგმნის პროგრამის კონცეფციაზე (მარგალიტაძე, ფურცხვანიძე 2019ა, 2019ბ). ლექსიკოგრაფებისათვის განსაკუთრებით საინტერესოა ლექსიკოგრაფიული მასალის ეფექტიანობა მანქანური თარგმნის პროგრამაში. ამგვარ პროგრამას და მასზე დაფუძნებულ აპლიკაციებს ესაჭიროება ბუნებრივი ენის სემანტიკის აღწერა, ენის სემანტიკის ყველაზე სრულყოფილი აღწერა კი ლექსიკონებშია მოცემული.
„ცენტრის“ ჰიპოთეზის მიხედვით, ამ ლექსიკოგრაფიული გუნდის მიერ შექმნილი დიდი ინგლისურ–ქართული ონლაინლექსიკონის მასალა მნიშვნელოვანი წყარო უნდა ყოფილიყო ინგლისურ-ქართული მანქანური თარგმნის პროგრამისთვის. 2022 წლის მარტში აღნიშნული ჰიპოთეზის შემოწმება შესაძლებელი გახდა, როდესაც „ცენტრის“ მიერ მომზადებული 370,000 წინადადების წყვილით პირველად გაიწვრთნა ქართულ-ინგლისური მანქანური თარგმნის პროგრამა OpenNMT[1] მოდელისთვის[2]. ამ 370,000 წინადადებიდან 100 000 წინადადება იყო დიდი ინგლისურ–ქართული ონლაინლექსიკონიდან ამოღებული პარალელური წინადადებები. აღსანიშნავია, რომ პროგრამამ საკმაოდ კარგად „შეისწავლა“ სპეციფიკური ლექსიკა, მათ შორის შესიტყვებები და ხშირ შემთხვევაში უკეთეს და უფრო ზუსტ თარგმანს გვთავაზობს ქართულიდან ინგლისურად, ვიდრე Google translate, რომელიც 1.3 მილიონი წინადადების წყვილს ეფუძნება. ქვემოთ მოცემულია რამდენიმე მაგალითი, რომელიც აჩვენებს განსხვავებას Google translate-ის მიერ ქართულიდან ინგლისურად თარგმნილ წინადადებებსა და „ცენტრის“ პროგრამის მიერ თარგმნილ წინადადებებს შორის.
- ღორების კოლტი ზღვაში გადავარდა:
Google translate: The pig colt fell into the sea.
ჩვენი მთარგმნელი: A herd of swine fell into the sea.
- მგლების ხროვა მას ყოველი მხრიდან უტევდა:
Google translate: A herd of wolves attacked him from all sides.
ჩვენი მთარგმნელი: A pack of wolves was attacking him from all sides.
- არწივი ცაში ლივლივებდა:
Google translate: The eagle was flying in the sky.
ჩვენი მთარგმნელი: The eagle was soaring in the sky.
- მდინარე ტყეში მორაკრაკებდა:
Google translate: The river was flowing in the forest.
ჩვენი მთარგმნელი: The river bubbled in the forest.
- ფარდები ქარში ფრიალებდა:
Google translate: The curtains were flying in the wind.
ჩვენი მთარგმნელი: Curtains fluttered in the wind.
- ჩიტების გუნდი ერთად მიფრინავდა:
Google translate: A team of birds flew together.
ჩვენი მთარგმნელი: A flock of birds flew together.
„ლექსიკოგრაფიისა და ენობრივი ტექნოლოგიების ცენტრის“ გუნდისთვის, როგორც ზემოთ აღინიშნა, განსაკუთრებით საინტერესოა ის, თუ როგორ უნდა შევასწავლოთ მანქანას ლექსიკა. მანქანური თარგმნის პროგრამისთვის განსაკუთრებულ სირთულეს, ლექსიკის „შესწავლის“ თვალსაზრისით, ქმნის ოთხი რამ: შესიტყვებები, პოლისემია, ომონიმია და იდიომები. ევროპული ენების მანქანური თარგმნის პროგრამებზე დაკვირვება ცხადყოფს, რომ ხშირ შემთხვევაში, პროგრამები წარმატებით ართმევს თავს ზემოხსენებულ სირთულეებს. ეს განსაკუთრებით ითქმის DeepL-ის პლატფორმის გამოყენებით შექმნილ პროგრამებზე. თუმცა, კვლევა აჩვენებს, რომ მანქანური თარგმნის პროგრამებში, ისეთი ენებისთვისაც კი, რომელთაც საკმაოდ დიდი რესურსები აქვთ და მილიონობით პარალელური წინადადების დაგროვებაა შესაძლებელი, ლექსიკის „შესწავლის“ პრობლემა ყოველთვის არ არის გადაწყვეტილი.
ლექსიკის „შესწავლის“ პრობლემები კიდევ უფრო მკაფიოდ იჩენს თავს ნაკლები რესურსების მქონე ენების, მათ შორის, ქართული ენის შემთხვევაში. ინგლისურ-ქართულ მთარგმნელს სერიოზული ხარვეზები აქვს შესიტყვებების, პოლისემიის, ომონიმიის, იდიომების თარგმნის თვალსაზრისით.
ამჟამად მიმდინარეობს მანქანური თარგმნის პროგრამის მიერ ლექსიკონის მასალის ათვისების წესების უფრო დეტალური შესწავლა და სამეცნიერო ლიტერატურის დამუშავება. ამ წესების დადგენის შემდეგ გადამუშავდება დიდი ინგლისურ–ქართული ონლაინლექსიკონის მასალა მანქანური თარგმნის მიზნებისათვის. ამავდროულად გროვდება წინადადებები ინგლისურ-ქართულ პარალელურ კორპუსში (მარგალიტაძე, მელაძე, ფურცხვანიძე 2022), რის შემდეგაც გაგრძელდება მონაცემთა წვრთნა ინგლისურ-ქართული მანქანური თარგმნის პროგრამისთვის.
- დიდი ინგლისურ–ქართული ონლაინლექსიკონი (მთავარი რედაქტორი
თ. მარგალიტაძე). 2010. თბილისი : ლექსიკოგრაფიული ცენტრი. www.dict.ge
- მარგალიტაძე, თ., მელაძე, გ., ფურცხვანიძე, ზ. (2022). ინგლისურ-ქართული პარალელური კორპუსი და მისი გამოყენება ქართულ ლექსიკოგრაფიაში. სამეცნიერო ჟურნალი Lexikos, ტ. 32 (2). https://lexikos.journals.ac.za/pub/article/view/1701
- მარგალიტაძე, თ, ფურცხვანიძე, ზ. (2019 ა) „ქართული ენა ხელოვნურ ინტელექტზე დაფუძნებულ თარგმანის მოდელებში: ლექსიკოგრაფებისა და ბუნებრივი ენის დამუშავების სპეციალისტების თანამშრომლობა“. საერთაშორისო კოლოკვიუმილექსიკოგრაფია გზის გასაყართან. კონფერენციის ორგანიზატორები: თსუ ლექსიკოგრაფიის ცენტრი და EMLEX – ლექსიკოგრაფიის ევროპული სამაგისტრო პროგრამის კონსორციუმი.
https://margaliti.com/emlexweb.pdf
მარგალიტაძე, თ., ფურცხვანიძე, ზ. (2019 ბ) „მაღალი ხარისხის ლექსიკოგრაფიულ მონაცემთა ბაზის ეფექტურობა ინგლისურ-ქართული / ქართულ-ინგლისური მანქანური თარგმანის პროგრამის შექმნისათვის“. საერთაშორისო კონფერენცია ენა და თანამედროვე ტექნოლოგიები V – ისტორიული და ეტიმოლოგიური ლექსიკოგრაფიის საკითხები. კონფერენციის ორგანიზატორები: თსუ არნოლდ ჩიქობავას სახელობის ენათმეცნიერების ინსტიტუტი, სოხუმის სახელმწიფო უნივერსიტეტი, სახელმწიფო ენის დეპარტამენტი, ჩერქეზული (ადიღეური) კულტურის ცენტრი.
[2] მონაცემების გაწვრთნაზე იმუშავა მონაცემთა ანალიზის მეცნიერმა ვახტანგ ელერდაშვილმა.