Doğru soru “Büyük veri nedir?” mi, yoksa “Veriyi nasıl kullanmalıyız mı?” – Didem Gündoğdu

by ThePercept 0

Eğer bilgisayarlar konusunda ilgili ve zaman içindeki değişimlerini takip edecek yaştaysanız, son otuz sene içinde sıkça duyulan moda terimlere de yabancı değilsinizdir. Doksanların başında WEB, e-posta kelimeleri sonlara doğru ERP (Kurumsal Kaynak Planlama), CRM (Müşteri İlişkileri Yönetimi) yazılımlarına bıraktı.

Günümüzde sıkça duyduğumuz kelimeler ise, AI (Yapay Zeka), makina öğrenimi (machine learning) ve büyük veri (big data).

Peki, büyük veri nedir? Latince kökenli olan “data”, tekil hali “datum” olan Oxford sözlüğünde bilgi parçacığı olarak tanımlanmıştır. Bu tanımdan yola çıkarsak her tür bilgiyi veri olarak değerlendirebiliriz. Bu veri, günde kaç adım attığımızdan, Facebook’taki arkadaş sayımıza, hangi Tweet’leri beğenip paylaştığımıza ve hatta marketten hangi meyve sebzeyi aldığımıza kadar genişletilebilir. Arkamızda bıraktığımız her dijital ekmek kırıntısı, büyük veri ambarlarında birikiyor. Tanımı gereği bilginin dijital olması da gerekmiyor, örneğin çöplerimiz bile büyük veri analizinin bir parçası olabilir [1]. Daha doğrusu büyük veri yerine sadece veri dememiz gerekiyor.

Peki, neden veri bugün bu kadar önemli ve neredeyse her gün duyar olduk? Çünkü dokunduğumuz her şey dijitalleşti. Bu bilgi mevcut teknolojiler tarafından erişilip analiz edilebilir hale geldi.

Genel olarak dünyada büyük veriyi tanımlamak için 3V (volume (hacim), velocity (hız) and variety (çeşitlilik)) kullanılıyor. Dünyamızda bilgisayarlarda tutulan verinin %90’ı son iki sene içinde oluştu (hacim ve hız) [2]. Bu bilgi ise çok çeşitli kaynaklardan besleniyor. Örneğin konumumuz (GPS Global Positioning System), sosyal ağlardaki paylaşımlarımız, kredi kartı ile yaptığımız harcamalar ya da televizyon kanalında ne izlediğimiz. Bütün bu çeşitli ve büyük veriye erişim, aralarında ilişki kurup, çıkarımlar yapmak, akıllı uygulamaların geliştirilebilmesini sağladı.

Veri aynı veri; ister büyük, ister Excel dosyalarında olsun. Peki havadaki değişim rüzgarının sebebi ne? Şirketlerin verinin değerini anlaması. Günümüzde artık şirketler bu veri tabanlı teknolojiler ile kararlarını alıyor. Örneğin, Netflix “House of Cards” dizisinin yayın haklarını aldığında, bunu milyonlarca abonesinin neyi sevip neyi sevmediğini bildiği için yaptı. Bu dizinin başarısı onlar için sürpriz değildi [3].

Veriden daha fazla fayda sağlamak için, verinin nasıl analiz edildiğini bilmek gerekiyor. Bu teknoloji nasıl çalışıyor? Birçoğumuz farkında olmasak da veri yığınının içinde kendini yineleyen belli desenler var. Bu sihirli desenleri görebilmek için elimize kaleydoskop alıp bakmamız gerekiyor. Bu kaleydoskop gerçek anlamda istatistiki modellere ya da makina öğrenimi programlarına karşılık geliyor.

1814’de ünlü Fransız matematikçi Pierre-Simon Laplace, daha sonra Laplace’ın şeytanı olarak tanımlanacak bir öngörüde bulundu: “Eğer herhangi biri (şeytan oluyor) evrendeki her atomun kesin yerini ve hareketini bilirse, geçmiş ve gelecek değerlerini bilmek kaçınılmazdır.” Bu deterministik yaklaşım günümüzde veriyi anlamaya çalışırken yaşadığımız bazı problemleri de açıklıyor. En yakın örneği son ABD (Amerika Birleşik Devletleri) başkanlık genel seçimlerinde, tahminlerin aksine kazananın Clinton değil Trump olması [5].

Veri ya da bilgi içinde muazzam bir gücü barındırıyor. Ancak gerçek dünyayı doğru modelleyemezsek ya da elimizde yeteri kadar veri yoksa bizi yanlış yönlendirebilir. Sihirli cam küreden yanlış bir yanılsama çıkarabiliriz.

Didem Gündoğdu hakkında:

Didem Gündoğdu, 15 senelik bilişim sektöründe ki deneyiminin ardından 2014 senesinde Boğaziçi Üniversitesinde bilgisayar bilimleri ve mühendisliği bölümünde masterını tamamlamış, devamında İtalya’da Trento Üniversitesi’nde Bilgisayar Bilimleri ve Mühendisliği bölümünde doktora eğitimine başlamıştır. Bruno Kessler Vakfı tarafından sağlanan burs ile halen aynı enstitünün mobil ve sosyal bilişim laboratuvarında çalışmalarına devam etmektedir. Telekomünikasyon verisinde anormal davranışları olasılık modeller ile tahmin etmek konusunda çalışmaktadır.

Referanslar:

  1. http://www.hurriyet.com.tr/istanbulun-cop-haritasi-40256009
  2. http://www.vcloudnews.com/every-day-big-data-statistics-2-5-quintillion-bytes-of-data-created-daily/
  3. http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html
  4. https://en.wikipedia.org/wiki/Laplace%27s_demon
  5. http://www.nytimes.com/2016/11/10/technology/the-data-said-clinton-would-win-why-you-shouldnt-have-believed-it.html