Doç. Dr. Serkan Özel
Doç. Dr. Serkan Özel
Doç. Dr. Serkan ÖzelYazarın Tüm Yazıları

Hiss-i Kabl-el Vuku

Elinizde kime ait olduğunu bilmediğiniz bir metin olduğunu düşünün. Bu metnin yazarının kim olduğunu nasıl belirlersiniz? Bu soruya cevap bulmak için çeşitli yöntemler var. Bunlardan en sık kullandığımız, henüz nasıl çalıştığına tam hâkim olamadığımız insan beynidir. Bir paragraf okursunuz ve dersiniz ki bunu benim en sevdiğim şu yazar yazmış; bu kıta şu meşhur şaire ait. Peki nereden biliyoruz? Aslında cevabını çoğu zaman tam bilmiyoruz ama okuduğumuz yazarların ve şairlerin tarzları hakkında bir fikrimiz vardır. Kelime tercihleri bile bazen bir eserin kime ait olduğu hakkında fikir verebilir.

Haberin Devamı

Hiss-i Kabl-el Vuku – Bir şeyi vukuundan (olmadan) önce hissetmek. Kısaca, önsezi.

Önsezi, tam olarak nasıl çalıştığını bilmediğimiz algoritmamız aslında. Yıllar içerisinde biriktirdiğimiz bilgileri kullanarak yaptığımız bir tahmin. Bu tahmin, bilgiye dayalı bir tahmin. Bu yüzden doğruluk oranı daha yüksek oluyor.

Olasılıksal metin analizi

Bizim, tahmin için kullandığımız hissikablelvukunun olasılık teorisi ile işlenmiş haline olasılıksal metin analizi diyoruz. Bu analiz yöntemi ile yazarını bilmediğimiz metinlerin yazarlarını çok yüksek doğruluk oranları ile tahmin edebiliyoruz. Bu algoritma, kelime sarısını yok saydığımızda Türkçe’de herhangi bir kelimenin kullanılma olasılığını hesaba katıyor. Örneğin, “aynen” kelimesinin kullanılma olasılığı “bilakis” kelimesinin kullanılma olasılığından fazladır. Ama aynı kelimeleri, örneğin, 50 yaş üstü kişilerin kullanma olasılığı dediğimizde olasılıklar yer değiştirir. Elbette sistem, burada bahsettiğim gibi farazi olasılıklar ile çalışmıyor.

Haberin Devamı

Sistemin çok basit açıklaması şöyle. Bir yazara ait metinlerde kullandığı kelimelerin olasılıklarını hesapladıktan sonra Bayes teoremini kullanarak bu kelimeleri kullanan yazarı tahmin edebiliyoruz.

1787 yılında Amerika Birleşik Devletleri’nde Federalistler, yeni anayasanın onaylanmasını destekleyen yazıları kaleme almışlar ama çekindikleri için isimlerini gizli tutarlar. Aslında isimlerini hiçbir zaman açıklamamalarına rağmen bu yazıların Alexander Hamilton ve arkadaşları tarafından yazıldığı söylenir. Bu yazıların, Alexander Hamilton ve arkadaşları tarafından yazıldığını düşünenler, onlara ait isimlerini vererek yazdıkları diğer yazılardaki kelimelerin olasılıksal analizleri ile Federalist yazıların olasılıksal analizleri karşılaştırıldığında çok yüksek orandaki eşleşmeden dolayı Alexander Hamilton ve arkadaşlarının Federalistler olduğu söylenmeye başlanmıştır.

Peki! Bu bizim işimize nerelerde yarar. Aynı analiz yöntemi, e-posta kutunuzdaki istenmeyen e-postaların (spam) belirlenmesinde kullanılıyor. Gönderilen e-postaların %45’i istenmeyen e-postalardan oluşuyor. Bir başka ifadeyle, neredeyse gelen her iki e-postadan birisi istenmeyen. Bu durum da, filtreleme işini daha da zorlaştırıyor. Yeni gelen her e-posta için e-postadaki kelimelerin istenmeyen e-postaya benzeyip benzemediği inceleniyor. Bu şekilde, e-postalarımıza gelen istenmeyen e-postaları çok daha iyi filtreleme şansımız oluyor.

Haberin Devamı

Bahsettiğimiz algoritmalar geliştirilerek, yenileri üretilerek farklı alanlarda kullanıp hayatımızı kolaylaştırmaya çalışıyoruz. Buna bir başka örnek ise, içerik benzerlik tespit algoritmalarıdır. Bu algoritmalar, yazılan bir metnin başka metinlerle benzerlik oranlarını hesaplayıp, hangi kısımlarının başka metinlerden alındığını ortaya koymak üzere programlanmıştır. Akademide, çok yoğun bir şekilde kullandığımız programlar ile intihallerin (akademik hırsızlık) ortaya çıkartılması sağlanıyor. Akademisyenler olarak, bu yazılımları bir öğretim aracı olarak kullanırız. Önsezilerimizi, resmi hale getirip olası intihalleri önceden (kabl-el) belirleyip yayınlamadan (vukuu) hissetmemize (hiss-i) imkân tanıyor. TÜBİTAK, bu alanda en çok kullanılan yazılımı bütün üniversitelere erişim imkanı tanıyarak önemli bir hizmette bulunmuştur.

Haberin Devamı

Önsezilerimize güvendiğimiz bir yıl dileklerimle sağlıcakla kalın.

Yazarın Tüm Yazıları