Turkishtime AR-GE 250


Büyük veriye para harcamaya gerek var mı?

Turkishtime Dergi

Evet var; çünkü tüketiciler gerçeği ancak kasaya gelip parayı ödediklerinde söylüyorlar. İşte büyük veri hakkında merak ettiğiniz her şey…

 

YAZI Ertan Murat Erışık - Kara Danışmanlık Genel Müdürü

 Ertan Erışık Kara Danışmanlık

 

Son yıllarda giderek daha fazla büyük veriden (big data) bahsedildiğini duyuyoruz. Kavram olarak büyük veri herkesin dilinde, ama herkes aynı şeyi mi anlıyor orası biraz tartışmalı. Gerçekten ne biliyoruz büyük veri hakkında? Acaba büyük veriyi kullanarak rekabette öne geçebilir miyiz? Ya da birkaç yıl sonra başkalarının başarı hikâyelerini mi okumak zorunda kalacağız?

 

Neden büyük veri hakkında konuşuyoruz? Çünkü artık çevremizdeki hemen hemen her şey veri üretiyor. Sadece işletmelerde kullandığımız, günlük olarak fatura kesip müşteri kayıtları oluşturduğumuz uygulamalar değil, GPS sinyalleri üzerinden cihazın lokasyon, durum bilgisini paylaşan sensörler, bilgisayarda yapılan her işlemi otomatik olarak kayıt eden log dosyaları, web siteleri, GPS sinyal kayıtları, akıllı hale gelen giyilebilir teknolojiler dediğimiz ürünler, televizyon, buzdolapları gibi ev elektroniği cihazları, binek ve taşıma araçları kısacası etrafımızdaki pek çok şey veri üretiyor. Görünen o ki, veri üretme kapasitesine sahip 'şey'lerin sayısı yakın gelecekte daha da artacak.

Peki ama bunun bize faydası ne?

Bu veriler, eğer doğru kullanılabilirse, gerek çevremizde olup bitenler gerekse gelecekte neler olabileceğine dair ciddi anlamda fikir verebilir. Şirketler, veriye dayalı analizlerle kârlılıklarını artıracak stratejiler geliştirip uygulayabilir. Kurumlar hizmet kalitelerini arttıracak şekilde bu verilerden faydalanabilir.

 

BT endüstrisinde yeni bir alan

Tam olarak büyük veri deyince ne kastediyoruz? İşletmelerde biriktirilen verileri kabaca iki kategoride toplamak mümkün. İlk kategoriyi yapısal veriler yani şirket ya da kurumlarda kullanılan yazılımlar aracılığıyla üretilen veriler olarak adlandırmak mümkün. ERP sistemleri, satış, arka ofis uygulamaları, finans, krediler, kredi kartları, stok, muhasebe... Her iş birimi için kullanılan modülleri düşünelim, bazıları ayrı ayrı sistemlerde, bazıları tek bir ERP paketinin içerisinde toplanmış farklı amaçlara yönelik yazılımların ürettiği veriler bu kategorinin tipik örneği olarak verilebilir. Veriler yapısal yani birbirleri ile kolayca eşlenebiliyorlar. Bir müşteri numaramız var, onunla müşterinin yaptığı işlemleri takip edebiliyoruz. Bu veriler aynı zamanda kontrolümüz altında, belli bir süre geçince sistem sorumluları siliyor ya da arşivliyor.

 

İkinci tür ise yukarıda belirttiğimiz konvansiyonel uygulamalar dışında kalan ve son yıllarda büyük veri kavramını giderek popülerleştiren her türlü 'şey'in ürettiği veri. Bu kategoride giyilebilir teknolojilerden tutun da hareket ölçen sensörlerin ürettiği verilere kadar geniş bir yelpazeden bahsediyoruz. Hem yelpaze geniş hem de boyut çok büyük. Aynı zamanda pek kontrolümüzde de değiller ya da çok hızlı büyümeden ötürü depolama kapasitelerini, veri tabanlarını hızla işgal etme ihtimalleri var. Yapısal değiller, elimizdeki diğer verilerle ilişkilendirmek o kadar da kolay değil. Bu tür verileri depolamaya kalksak veri tabanı şirketlerini zengin etmemiz gerekir. Belki de bu kategoriye 'çok büyük veri' demek, iki kategori arasındaki farkı biraz daha vurgulamak açısından faydalı olabilir.

 

Her iki kategoriyi ayrı ayrı mı değerlendirmek lazım? Öncelikle burada elde edilecek fayda ile gerçekleştirilecek yatırım dengesini çok iyi gözetmek lazım. Özellikle ikinci kategorideki verilerin düşük maliyetle depolanıp işlenebilmesi için açık sistemler temelli teknolojilerin oluşturulduğunu bilmekte fayda var. Yani çok büyük veriler, aslında BT endüstrisinde yeni bir alanın doğmasına öncülük etti. İlk kategorimizde yer alan ve mevcutta kullanılan yazılımların ürettiği verilerden sonuç almak için veri ambarları oluşturuluyor genelde.

 

Veri ambarının faydaları

Farklı yazılımlara ait veri tabanlarında üretilen verileri, tek bir veri tabanında toplayıp temizliyorsunuz, entegre edip gerçeğin tek bir versiyonunu üretecek bir bilgi havuzuna dönüştürüyorsunuz. Bu veri havuzunun tarihsel derinliğini de mevcut yazılımlarınız ile kısıtlanmadan belirliyorsunuz. Mesela ERP yazılımında sene sonunda veriler silinirken ya da arşivlenirken, veri ambarınızda bütçeniz ve iş ihtiyaçlarınız doğrultusunda istediğiniz kadar tarihsel veri tutabiliyorsunuz. Böylece müşterilerinizin ya da sizden hizmet alan kişilerin/kurumların geçmiş işlemlerini dilediğiniz detayda yeniden düzenleme şansına sahip oluyorsunuz.

 

Detay veriyi analiz etmenin trendleri ve müşteri davranışlarını anlama konusunda çok ciddi getirileri olduğunu bilmek lazım. Tüketiciler davranışları ile sürekli birtakım mesajlar veriyorlar aslında. Bizim yaptığımız, bu davranışları rasyonel iş kararlarına çevirirken veri ambarından faydalanmak.

 

Mağazacılıktan bir örnek verelim. En çok satan ürünler listesi perakendecilikte genelde çok fazla değişmez. Ama dönemsel olarak çok çarpıcı farklılıklar olabilir. Tekel’in henüz özelleştirilmediği günlerde yaptığımız bir projede şöyle bir örnek hatırlıyorum. Bir rakı markası o zamanlar en çok satan ürünler listesinde 7. veya 8. sırada yer alıyordu. Ancak ramazan ayı yaklaştığında, ramazandan bir hafta önce bu ürünün satışları düşmeye başlıyor, Ramazan’ın ikinci haftasında bu ürün ilk 100 arasına zar zor giriyordu. Bu normal ve tahmin edilebilir bir gelişme. Ama tahmin edilemeyen şey şu: Aynı ürünün satışları ramazan ayının üçüncü ve dördüncü haftasında çok çarpıcı bir artışla 2. veya 3. sıraya yükseliyordu. Bu davranışı aylık ortalama satışlara bakarak tahmin etmek mümkün değil, hatta anket yaparak da tespit etmek mümkün değil. İnsanlar genelde anketlerde ideal cevaplar verme davranışı gösterirler. Ortalama rakamlara baktığınızda satışlarda değişen bir şey yok, ama detaya baktığınızda çok ciddi sonuçlar var.

 

Tüketiciler, kasaya gelip parayı ödediklerinde bir anlamda bize gerçekleri söylüyorlar. Elbette bu örnek belli bir zaman diliminde ve belli bir müşteri portföyüne sahip bir mağazadaki örnek. Ama veri ambarı bize insan davranışları ile ilgili başka yerde bulamayacağımız detayları veriyor. Bu detayları kullanarak stoklarımızı, personelimizi, pazarlama stratejilerimizi belirlemek ise bizim işimiz.

 

Peki veri ambarı konusunda neredeyiz?

Elbette veri ambarı sonuçlarını değerlendirerek son derece başarılı müşteri ilişkileri yönetimi yapan firmalar var. Perakende, telekomünikasyon ve bankalar için öncüler diyebiliriz. Bunların yanında pek çok farklı sektörde hâlâ yapılacak çok iş var, çünkü birtakım hatalar yapılıyor.

 

Her şeyden önce bu tip projeleri iş ihtiyaçlarına göre değerlendirmek lazım. Eğer ihtiyaçlara değil de teknoloji firmalarının çözümlerine odaklanılırsa istenilen sonuçlara varmak zorlaşabilir. Detay veri çoğu zaman önemsenmiyor, çünkü bu tip projelere statik rapor projeleri olarak bakılıyor ve veri özetlenmiş olarak tutulabiliyor. Oysa bu tip projeler analiz ortamları yaratırlar ve raporlama bu işin sadece bir parçasıdır. Yukarıdaki rakı satışları örneğinde olduğu gibi, aylık ortalamaya baksanız satışlarda değişim yok. Ama iki haftalık azalış, iki haftalık artış ile dengeleniyor. Eğer detay veriye bakmazsanız bunu göremezsiniz. Ama herhalde en büyük hatalardan biri, veri ambarı oluşturmak yerine bu entegrasyonu raporlama araçları ile yapmaya çalışmak.

 

Tekdüze verilerden küçük ama değerli bilgiler...

Her büyük veri projesi veri ambarı projesi midir?

Hayır, ikinci kategori diye belirttiğimiz ve yapısal veriler dışında yer alan verilerin daha farklı ele alınması gerekir.

Sensör verisini ele alalım mesela, bir marketler zincirindeki mağazalarda buzdolaplarının sıcaklığını belli periyotlarda ölçüp merkezi bir veri tabanına gönderen sensörler gibi... Mağaza sayısının çokluğunu ve ölçme periyodunun kısalığını düşünürseniz, beş dakikada bir bütün mağazaların bütün buzdolaplarından gelen veriler devasa boyutlara ulaşacaktır.

 

 

Bu tür verilerin tipik özelliklerinden biri veri büyüklüğü ama bir diğeri ve en az büyüklük kadar baskın olan karakteri, bu verilerin çoğu tekdüzedir ve bize bir şey anlatmaz. Eğer gerçekten vahim bir durum yoksa, sıcaklık hep kontrol altındadır, sadece bazı ekstrem durumlarda incelenmeye değecek limit dışı veriler ürer, sıcaklık düşüşü (fazla enerji harcama riski) ya da yükselmesi (ürünlerin bozulma riski) gibi... Eğer bu tür bir veriyi konvansiyonel yaklaşımla pazarda satılan bir ilişkisel veri tabanını kullanarak analiz etmeye kalkarsanız çok büyük maliyetlere katlanmak zorunda kalırsınız. Büyük veri ya da çok büyük veri dediğimiz kavram burada devreye giriyor ve daha çok, çok büyük verinin içerisinde yer alan, küçük ama değerli miktardaki verilerin uygun maliyetli bir şekilde işlenmesini hedefliyor.

 

Özellikle veri ambarı teknolojileri konusunda son yıllarda çok hızlı gelişmeler oluyor. Uygun maliyetli ve yüksek performans sunan yeni nesil çözümler var. Hafıza içi (in-memory) teknolojiye sahip ama aynı zamanda standartlara uygun ölçeklenebilir yeni nesil veri tabanları var çok yüksek performansı oldukça uygun maliyetlerle sunabiliyorlar.

Veri ambarı ve büyük veri projeleri birbirleri ile rekabette değiller o zaman?

Hayır değiller! Bunları birbirlerinin tamamlayıcısı olarak düşünmek lazım. Bu iki ortamın zaman zaman birbirlerini tetikleyebileceğini düşünebiliriz. Büyük veri ortamındaki birtakım verilerin entegre edilerek daha hızlı bir sorgulama ortamına çekilebileceğini ya da veri ambarında tutulmasına gerek olmayan işlem bilgilerinin daha uygun maliyetli açık sistem tabanlı (hadoop) çözümlere kaydırılması gayet mümkün. Bütün bunları yaparken maliyet ve fiyat performans dengesini hep akılda tutmak gerek elbette.

 

Nasıl başlamalı?

Temelde hangi sorunu çözeceğiniz konusunda çok iyi fikir sahibi olmanız lazım. Bu tür projeler, maliyetli, meşakkatli ve riskli projelerdir. Dolayısıyla başlamadan önce bir kapsam çalışması yapmak gayet mantıklı bir yaklaşım olacaktır. Bu çalışma ile projeye dayanak oluşturan iş ihtiyaçlarının neler olduğu, bu ihtiyaçların hangi adımlarda ve ne kadar sürelerde çözülebileceği, ne tür bir teknolojik altyapı kullanılacağı gibi bir yol haritasının belirlenmesi lazım. Elbette bu yol haritasının içereceği teknolojik bileşenler BT stratejileri ile uyumlu olmalı ve alternatifleri de içermeli.

 

Veri ambarı projelerinde uyguladığımız bir prensip var: Proje adımlarını kullanıcılara elle tutulur bir sonuç üretecek şekilde içerik açısından zengin, ilgilerini azaltmayacak kadar da kısa tutmak. Eğer bir proje adımı kullanıcılar için anlamlı sonuç üretmiyorsa, kullanıcıların projeye olan desteği zayıflayacaktır. Ya da proje süresi çok uzun ise ilgileri azalıp başka konulara yönelme ihtimalleri olacaktır. İkisi arasında dengeyi iyi bulmak lazım.

 

Sonuç:

Veriyi doğru kullanmak çevremizde olan biteni anlamak için en güçlü silahımız. Bu silahı verimliliği artırmak için iyi kullanmak lazım. Evet, veri boyutları büyüyor, çeşitleniyor, yönetmek zorlaşıyor, ama günümüzde bu sorunları aşabilecek teknolojiler ve yeni nesil yaklaşımlar elimizde var. Dolayısı ile doğru teknolojiyi doğru yerde kullanarak yüksek performanslı çözümleri uygun maliyetle üretmek