საძიებო ბაზიდან საანალიზო კორპუსამდე : თანამედროვე პლატფორმა ტერმინოლოგიური მუშაობისათვის

პროექტის ხელმძღვანელი პროფესორი თინათინ მარგალიტაძე

პროექტზე მუშაობენ: თინათინ მარგალიტაძე

ზაქარია ფურცხვანიძე

მაია დავლიანიძე

ნატა ჩხაიძე

პროექტის დეველოპერი: გიორგი ქერეჭაშვილი

 

წინამდებარე პროექტის მიზანია ერთი მხრივ, „ინგლისურ-ქართული პარალელური კორპუსის“ (მარგალიტაძე, მელაძე, ფურცხვანიძე 2022) აღჭურვა საანალიზო პროგრამული ინსტრუმენტებით, რომლებიც უფრო ეფექტურს გახდის კორპუსიდან მონაცემების მოპოვებასა და დამუშავებას ტერმინოლოგიური ლექსიკოგრაფიული პროექტებისათვის, მეორე მხრივ კი, პარალელური კორპუსის გარდაქმნა საანალიზო და საკვლევ პლატფორმად სტუდენტებისა და სხვა მკვლევრებისათვის, რომლებიც შეძლებენ კორპუსის პლატფორმის დამოუკიდებლად გამოყენებას, მასში საკუთარი მონაცემების ატვირთვას და მათ დამუშავებას კორპუსში ჩაშენებული საანალიზო პროგრამული ინსტრუმენტებით.

„ინგლისურ-ქართული პარალელური კორპუსი“ დღეისათვის 12 მილიონ სიტყვაფორმას მოიცავს და ორი ქვეკორპუსისგან შედგება: სამეცნიერო ტექსტების ქვეკორპუსი და მხატვრული ლიტერატურის ქვეკორპუსი. სამეცნიერო ტექსტების ქვეკორპუსის ბაზაზე ბოლო წლებში რამდენიმე კვლევა განხორციელდა, რამაც გამოავლინა პარალელური კორპუსის ეფექტურობა ტერმინოლოგიური სიტყვა-სტატიების შედგენის პროცესში (მარგალიტაძე, მელაძე, ფურცხვანიძე 2022). პარალელური კორპუსი აღჭურვილია ტექსტების დასამუშავებელი ინსტრუმენტებით, რომელთა მეშვეობით შესაძლებელია კორპუსში პარალელური ტექსტების ატვირთვა, მათი დაშლა პარალელური წინადადებების ბლოკებად, მათი შემდგომი ხელით შეთანადება, ტერმინების მონიშვნა და ამოღება კორპუსიდან შემდგომი ლექსიკოგრაფიული დამუშავებისათვის.

ჩვენი პროექტის ერთ-ერთი მიზანია უკვე არსებული პარალელური კორპუსის პლატფორმა ხელმისაწვდომი გავხადოთ სხვა მკვლევრებისათვის, მათ შორის სხვადასხვა დარგის სპეციალისტებისათვის, სამაგისტრო და სადოქტორო პროგრამების სტუდენტებისათვის, რათა წავახალისოთ და ხელი შევუწყოთ ტერმინოლოგიურ მუშაობას საქართველოში. გარდა ზემოთ ჩამოთვლილი ფუნქციონალისა, პროექტის ფარგლებში პარალელურ კორპუსში ჩაშენდება ტერმინების ავტომატურად მონიშვნის პროგრამული ინსტრუმენტი, რომელიც საშუალებას მისცემს მკვლევარს შექმნას ორენოვანი ტერმინოლოგიური გლოსარიუმი.

გარდა ამისა, პროექტის მიზანია პარალელური კორპუსის აღჭურვა თანამედროვე საანალიზო პროგრამული ინსტრუმენტებით. პროექტი ითვალისწინებს „ინგლისურ-ქართული პარალელური კორპუსის“ აღჭურვას საანალიზო ინფრასტრუქტურით, რომლის ფარგლებში შესაძლებელი იქნება დაძებნილი ენობრივი მონაცემების შემდეგი საანალიზო მეთოდებით კვლევა:

  1. ლექსიკური სიმდიდრის ანალიზი TTR-ისა და მისი სხვადასხვა სახეობის მიხედვით ანალიზის ბაზაზე;
  2. n-Gram-ული ანალიზი;
  3. კოლოკაციური ანალიზი და მისი „კოლოკაციური ფიჭის“ ფორმით განსურათება;
  4. სიტყვების მრავალგანზომილებიანი სკალირების (Multi-Dimensional Scaling of Words) მეთოდით ანალიზი და შესაბამისი განსურათება;
  5. სიტყვის ჩანერგვა მონაცემთა ბაზის ვექტორულ გარემოში (Word embedding).

ჩამოთვლილი ხუთი საანალიზო ინსტრუმენტი, რომელთა პროგრამული ალგორითმები ღია რესურსებია, სხვა მრავალ საანალიზო ინსტუმენტთან ერთად დიდი ხანია წარმოადგენს დასავლური ენების კორპუსული ინჟინერიის ორგანულ სამშენებლო ელემენტებს.

პროექტის წარმატებით განხორციელების შემდეგ, ინგლისურ-ქართული პარალელური კორპუსი, აღჭურვილი სრულიად ახალი საანალიზო ინფრასტრუქტურით, გადაიქცევა ერთგვარ მოდელად ქართული ენის კორპუსის ლინგვისტიკაში და გადაიყვანს მას ხარისხობრივად ახალ ეტაპზე. პროექტი ასევე მიზნად ისახავს საანალიზო ინსტრუმენტების „ციფრული უჯრის“ ღია რესურსის სახით შექმნას, რომლის „ჩაშენება“ შესაძლებელი იქნება ყველა სხვა ქართული ენის მონაცემთა ბაზაზე შექმნილ კორპუსში.

 

  • მარგალიტაძე, გ. მელაძე, ზ. ფურცხვანიძე. „ინგლისურ-ქართული პარალელური კორპუსი და მისი გამოყენება ქართულ ლექსიკოგრაფიაში“. სამეცნიერო ჟურნალი Lexikos, ტ. 32 (2), 2022.

https://lexikos.journals.ac.za/pub/article/view/1701

lexicography