Langana, İngilizce Türkçe çeviri yakında aramızda – Ali Rıza Saral

by Sinan Oymacı 0

Ali Riza Saral y

Langana, İngilizce Türkçe çeviri altyapısını geliştirmekte olan Ali Rıza Saral ile olağanüstü bilgiler içeren bir görüşme gerçekleştirdik. Aşağıda bilgi ve deneyimi üst düzeyde bir mühendisin İngilizceden Türkçeye çeviri altyapısı geliştirerek, ülkemizdeki gelişime nasıl katkı verebileceğini kurguladığı bir proje okuyacaksınız. Zaman ayırıp, sindire sindire okumanızı öneririm.

Biraz kendinizden söz eder misiniz?

Ali Riza Saral dAnkara Fen Lisesi, İstanbul Teknik Üniversitesi ve Illinois State University mezunuyum. Çift master yaptım. Hem elektronik mühendisiyim, hem İstanbul Devlet Konservatuarı’ndan ve Illinois State University’den Müzik Teorisi ve Besteciliği diplomalarım mevcut. BİLPA’da, BİMSA’da ardından Almanya’da hava trafik kontrolünde çalıştım.

Şu andaki konumuzla ilgili olarak; Almanya’da operasyonel sorumluluk taşıyarak çalıştım. ‘Rule Based’ olarak dizayn edilmiş büyük bir sistem vardı. İngilizce‘den Türkçe‘ye tercüme için kullandığım yaklaşım da “Rule Based”. Hava trafik kontrolündeki tecrübemi buraya taşıdım.

Tercüme konusuna merakınız nereden geldi?

Dil konusunda her zaman bir hassasiyetim vardı. Özellikle hava trafik kontrolünde çalışırken Avrupa Birliği’ne bağlı ‘Euro Control”de çalıştım. Orada bir masada oturuyorsunuz. Sağınızda Almanca konuşuluyor, solunuzda Fransızca konuşuluyor, önünüzde de İngilizce konuşuluyor. Ancak bunun dışında ben çok meraklıydım dil konusuna. Geçmişte, Eisenstein’ın – büyük Rus sinemacısı, “Korkunç Ivan” filmini yapan kişi – ‘Yaratıcılık konusunda dile önem veriniz’ dediğini hatırlıyorum. Ondan sonra bir dil merakı başladı.

Şu anda bir alt yapı hazırlamaya çalışıyorsunuz tercüme için anladığım kadarıyla, öyle değil mi?

Şu anda yaptığım şey, aslında dil tercümesinin alt yapısı. Bunun için bir ayrıştırıcınızın – parser – olması şart. Yani İngilizceden Türkçeye tercüme yapmak istiyorsanız İngilizce ayrıştırıcınızın olması gerekiyor. Veya tam tersi, Türkçe ayrıştırıcınız olması gerekiyor. Bu anlamda bir alt yapı çalışması yapıyorum ama onun üstüne tercüme motorunu da koyuyorum ki, sonuç tercüme olsun.

Facebook’ta çıkan yayınlarımdan izlemişsinizdir; tek cümleler için tercüme motoru dahil olmak üzere şu anda çalışıyor. Hatta örnekler de gösterebilirim.

Bunu yaptıktan sonra birleşik cümlelere geçtim. Birleşik cümleler için ilk önce ayrıştırıcı yapmam gerekti.

Ayrıştırıcının – parser – ne olduğundan da bahsedeyim kısaca. Bir cümle verildiğinde o cümlenin öznesi, nesnesi, fiili nedir? Bunlara ulaşabilmek için ilk önce bu cümle içindeki kelimelerin tipleri nedir? Kelimelerin tipleri de ‘Discrete Event Dynamic Systems’ denen bir sistem tipine uyuyor. Ayrık olaylardan oluşan olayların birbirini dinamik olarak etkilediği bir yapıdan oluşuyor. Dolayısıyla sizin İngilizcede fiil olarak kabul ettiğiniz bir şey, bir bakıyorsunuz isim olarak geçiyor. Yerine göre kelimelerin tipleri değişiyor. Tabii bu olayı çok karmaşıklaştırıyor. Çeşitli çevirme halinde üst üste kontrollerin yapılması gerekiyor.

Bir örnek kütüphane mi oluşturuyorsunuz şu anda?

Evet, kütüphane oluşmuş durumda aslında. Şu anda yaptığım şey, birleşik cümleler için tercüme eder hale getiriyorum.

Türkçeden İngilizceye mi yoksa tam tersi mi?

İngilizceden Türkçeye. Karışık olmayan tek cümleler için. Aslında onların da içinde karışık olanlar var. Mesela Gerund var, Participal var, Infinitive var. Bunları tek cümle içinde geçmek koşuluyla tercüme ediyor. Ancak,

‘ben hem çalışkanım hem de akıllıyım’ ‘I am intelligent and also clever’ dediğinizde,

oradaki ‘and also’ aslında bağlaç olarak geçiyor. Bağlaçları yapma aşamasındayım şu anda. Tabii onları yapmak içinde, ilk önce tek cümle bağlaçların ayrıştırıcılarının birlikte çalışmaları gerekiyor. Tek cümleler için 4800 tane test örneği var ki; bunlar her şeyi kapsamıyor.

O zaman önemli olan şey, yaptığınız sistemin geliştirilebilirliği oluyor. Mükemmel bir sistem geliştirmek, bir insanın mükemmel bir dil konuşması gibi mümkün değil. Geçen yıllar içinde insanın dili daha akıcılaşıyor, daha zenginleşiyor. Onun gibi, bu sistemle de iki yıldır uğraşıyorum. İki yıl içinde çok gelişti.

Burada şöyle bir şey var: Benim yaptığım sistemde, bir insanın konuşmayı öğrenmesi ve ardından cümleyi anlaması gibi. ‘Bilişsel Süreçler – Cognitive Processes’ benzetimine dayanıyor benim yaklaşımım. Dolayısıyla bu geliştirilebilirliği artırıyor.

Başka sistemler daha çok istatiksel yöntemlere dayanıyor. Veya pazarda ‘Nöral Ağlar – Neural Networks’’e dayanan yöntemler var. Bunlar bir tek paradigmayı ele aldıkları için, o paradigmanın sınırları içine hapsolup kalıyorlar. Halbuki bir dil açısından düşünürseniz, insan dilindeki karşılığı sezgi. Kelimeler ile bunu ifade edemiyorsunuz ama bir şey seziyorsunuz. O bir işaret veriyor size tık diye. Şimdi Neural Network de bu. Ama bir insanın konuşması tümüyle sezgiye dayanmıyor. Aksine ‘öngörü – predictive’’e dayanıyor. Yani mantıksal komutlara dayanıyor.

‘Ali okula gitti’ dediğinizde, ‘Ali nereye gitti? Ali okula gitti’ gibi.

Peki bu kendi kendine öğrenebilecek bir yapıya doğru gider mi? Yoksa hep dışarıdan insanların besleyeceği bir yapıya mı gider ?

Çok güzel bir soru sordunuz. Langana dışındakilerin kullandıkları yöntemde şöyle bir şey yapma mümkün: diyelim ki bir kitabı alıp, kitabı tarayıp, bu kitabı sisteme yükleyip, tercümeleri de işlediniz. Ancak orada yine aynı sorun var. Bu sefer yüklediğiniz tek tek her cümleyi, yaptığı tercümenin doğru mu yanlış mı olduğunu belirtmek zorundasınız.

Tamam, oturttuk yüz kişiyi, hepsinin önüne de kitapları koyduk. Diğer yana da Türkçeyi koyduk.

Bu anlamda diyorsanız bu sistem onu yapar. O zaman olayın boyutu konusuna geliyoruz. Olayın ciddiyeti nedir? Çok farkında değiliz ancak Çin bunun farkında. Çin’de eski iki bin üç bin yıl önceki bilgiyle, örneğin bin sayfalık bir kitabı buna verip, sorular sorup bunun cevabını alabilirdik. Bunu yapmak mümkün. Yani ‘Mind Processing’.

Şiir tercüme edilebilir mi?

O çok zor tabii. Ancak, onda da çağrışımı nasıl yaparsınız? ‘Semantik Ağ – Semantic Network’ kurarsınız. ‘Semantic Network’’ten çağrışım yapar. O kadar da imkansız değil artık her şey.

Artık metin işleme’den ‘Text Processing’ düşünce işlemeye ‘Mind Processing’ doğru gidiyoruz. Örneğin bin sayfayı yüklüyor, soru soruyorsunuz, cevap veriyor. Hukuk sistemini ele alın. Binlerce sayfalık davalar var. Yani şu anda tıkanmış durumda. Bir ülkenin hukuk sistemini revize edecek bir imkan. Stratejik değeri olan bir şey. Bu şekilde bakılırsa, bu sistem eğer kendini kabul ettirirse, yatırım yapacak kişiler çıkar buna. Aslında ilk önce devletin yatırım yapması lazım.

Çok suçlayıcı olmak istemiyorum ama ben aradım bulamadım.

Örneğin, sayısal ortamda Türkçe kelimelerin tiplerini belirten halka açık bir kaynak yok. Türk Dil Kurumu nerede? Ne kadar değerli bir şey düşünün. Sadece hukuki sistem bile yeterli. Örneğin doktorlar. Doktorların çok önemli bir sorunu, kendilerini güncellemeleri için harcadıkları çaba. Çünkü okumaları gereken o kadar çok şey var ki. Üstelik bunların çoğu İngilizce. Şimdi bu tercüme motoru gerçekleşirse çok büyük bir faydası olur.

Bunun için mi öncelikle İngilizce’yi tercih ettiniz?

Evet bunun için. Türkiye’de yeterince makale okunmuyor. Uzman kesim de okumuyor. Okumuyor, okuyamıyor. Böyle bir şeye ihtiyaç var. Benim hedeflediğim, bilimsel makale tercüme edecek ve okuyan kişi hiç olmazsa %80 – %90 anlayacak.

Bunu ürün haline getirip piyasaya sürmek gibi bir stratejiniz var diye düşünüyorum. Belli tarih var mı kafanızda?

Var tabii, stratejik olarak var. Sonbahar ya da en geç bu yılın sonuna kadar bu karışık cümleleri bitirmeyi hedefliyorum. Fakat ondan sonra başka sistemlerde olup, bizde olmayan bir eksiğimiz var. Ancak ben yapınca daha iyisini yapacağım.

‘Phrase Smoothing’ denen bir şey var. Benim programım kelime kelime tercüme ediyor. Dolayısıyla bir beyin söz konusu olunca orada yanlışlıklar ortaya çıkıyor. Onları düzeltmem gerekiyor. Sözlüğü daha iyileştirmem lazım. Benim kullandığım her şey ekonomik, her şey internetten bulunma. Sanıyorum Amerikan Konsolosluğunda çalışan bir çavuşun yazmış olduğu bir İngilizce Türkçe bol küfürlü sözlük var. Onu kullanıyorum. Benim kullandığım İngilizce sözlük Webster’in 1908 versiyonu mesela. Çok güzel bir sözlük ama içinde bir yığın yanlışlıklar var, aslında yanlış değil de tedavülden kalkmış şeyler var. Onlar da epeyce sorun çıkarıyor. Bir şeyin satılabilir hale gelmesi veya ortaya çıkması zaman alıyor. Benim tahminim yıl sonu gibi.

Kullanılabilir bir şey çıkacak diyorsunuz!

Kullanılabilir değil, çalışan bir şey çıkacak. Ben halâ fizibilite yapıyorum. Bu iş yapılır mı yapılamaz mı? Şu an yapılabilir olduğu gözüküyor. Ancak göstermek için bile fizible bir şeyin ortaya çıkması lazım. Ondan sonra kullanılabilir olması. Üstüne bir web uygulaması yazılacak, Çoklu kullanıcı yapılacak. Şu anda tek kullanıcı olarak ve batch olarak çalışıyor.

Her şey sizde başlayıp sizde bitiyor sanki. Anladığım kadarıyla kafanız da ihtiyaçlarla ilgili bir yol haritası var. Şunu yapmam lazım, ondan sonra bunu yapmam lazım gibi. Bütün bu süreci hızlandıracak bir yol niye çizmiyorsunuz? Bir ekip olsun, iki üç kişi daha destek olsun gibi.

Sıkıntı şurada aslında; bu iş, yapısı icabı parçalara ayrılabilir bir iş değil. Parçalara ayırmaya kalkarsanız zorlaşır gibi geliyor. Zaten bu şu anda bir fizibilite çalışması. Bir fizibilite çalışması bu ama biraz büyük bir fizibilite çalışması.

Olabileceğini gördünüz ama sonuçta üstüne tuğlaları koymak gerekiyor.

Gördüm fakat gösterebilmek için derli toplu hale getirmek gerekiyor. Şu anda mesela onunla uğraşıyorum. 4800 tane örnek var. Bu birleşik cümlelerin ayrıştırıcıda yaptığım değişikliklerdeki etkisini kontrol ediyorum. Ufak tefek düzeltmeler. yapıyorum Tek cümle için geçerli olan bir kural birleşik cümleler için geçerli olmuyor. Yani iki kelime artarda gelebiliyor mesela.

Her şeyi kendiniz öğrenip yapıyorsunuz, değil mi ? Bir Dil Bilimci‘den destek gibi şeyler yok.

Destek almıyorum. Zaten Dil Bilimci‘den alınabilecek fazla bir şey de yok. Hepsi internette var. Artık Bilim eskisi gibi değil. Kimsenin tekelinde değil bilim.

Peki, bu İngilizceden Türkçeye oluştuktan sonra Türkçeden İngilizceye de olur mu? Düşünür müsünüz yoksa bunun esas amacı baştan söylediğiniz gibi bilimsel konular daha fazla yayınlansın Türkiye’de? İnsanlar okusunlar anlasınlar gibi mi?

Esas amacı o gerçekten. Bu işe ilk başladığımda ben Türkçeden İngilizceye, Türkçe İngilizce değil de Türkçe ayrıştırıcı yapayım, hukuki davalarda takıldıkları soruları sorsunlar. Veya incelemek istedikleri şeyleri sorsunlar, hakimler avukatlar bunu okusun. Veya doktorlar okusun diye başladım. Bir Türkçe ayrıştırıcı yaptım. %80 çalışıyor fakat onu bıraktım bu sözlük işine girince. Böyle bir şey var sırada bekliyor. Hem de o biraz da ticari imkanlar ile birlikte olursa daha hızlı da gelişebilir belki diye hayal ediyorum.

Peki projenin dışında bir şey; şu anda “Z kuşağı” denilen bir grup var. Bunlar ne ofiste oturmayı istiyorlar, ne çalışmak istiyorlar. Başlıyorlar bir yerde, altı ay duruyor, başka yere gidiyorlar. Yeni Üniversiteye giren veya bitirmek üzere olan kişilerin hangi konulara eğilmelerini önerirsiniz? Bu kadar tecrübeniz var çok şey görmüşsünüz.

Yazılımcı olarak mı soruyorsunuz?

Evet, teknoloji tarafında.

Ayrıştırıcılar önemli. Dersi de çok fazla verilmiyor. Her üniversitede olduğunu zannetmiyorum dersi olduğunun. Seçmeli derstir herhalde. Kullanıcı ara yüzü – User interface – aslında System interface demek lazım. O konular çok geçerli konular. Çünkü User Interface’de bir şeyler yakalayabilirseniz onu satmak kolay.

Çok teşekkür ederim bu sohbet için. Umarım Langana en kısa sürede kullanıma alınır ve herkes faydalanmaya başlar.

Ben teşekkür ederim.

Eğer buraya kadar okuduysanız; Aşağıdaki örnekleri İngilizceden Türkçeye bildiğiniz tercüme araçları ile çevirmeyi bir deneyin. Sonuçlara şaşıracaksınız :)

– It is tiring.

– He is running.

– To see Niagara Falls is astonishing.

– It is tiring and he is studying.

Ali Rıza Saral ile yaptığımız röportajı aşağıda izleyebilirsiniz.