Veri Madenciliği Tanımı, Tarihçesi ve Uygulama Alanları

Veri Madenciliği Nedir?

Veri kelimesi Latince’de “gerçek, reel” anlamına gelen “datum” kelimesine denk gelmektedir. Her ne kadar kelime anlamı olarak gerçeklik temel alınsa da her veri her daim somut gerçeklik göstermez. Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir [4].

Veri madenciliği, geniş veri yığınları içerisinde, yararlı olma potansiyeline sahip, aralarında beklenmedik ya da bilinmedik ilişkilerin olduğu verilerin keşfedilerek, veri sahibi için hem anlaşılır hem de kullanılabilir bir biçime getirilmesine yönelik geliştirilmiş yöntemler topluluğudur. Veri madenciliği, aynı zamanda bir süreçtir. Veri yığınları arasında, soyut kazılar yaparak veriyi ortaya çıkarmanın yanı sıra, bilgi keşfi sürecinde örüntüleri ayrıştırarak süzmek ve bir sonraki adıma hazır hale getirmek de bu sürecin bir parçasıdır [2]. Veri madenciliği oldukça tahminci anahtar değişkenlerin binlerce potansiyel değişkenden izole edilmesini sağlama yeteneği olarak tanımlamaktadır [1].

Elde edilmek istenen verinin büyüklüğü ve buna bağlı olarak gerçekleşen işleme işleminin uzunluğuna göre farklı büyüklüklerde süreçler izlense de genel olarak veri madenciliği’nin ilerleme sistemini şu şekilde ifade etmek mümkündür [5]:

Veri Madenciliğinin Tarihçesi

Veri madenciliği; 1950’li yıllarda ilk bilgisayarlar sayımlar için kullanılmaya başlamıştır. 1960’larda ise veri tabanı ve verilerin depolanması kavramı teknoloji dünyasında yerini almıştır. 1960’ların sonunda bilim adamları basit öğrenmeli bilgisayarlar geliştirebilmişlerdir. Minsky ve Papert, günümüzde sinir ağları olarak bilinen perseptron’ların sadece çok basit olan kuralları öğrenebileceğini göstermişlerdir. 1970’lerde İlişkisel Veri Tabanı Yönetim Sistemleri uygulamaları kullanılmaya başlanmıştır. Bilgisayar uzmanları bununla beraber basit kurallara dayanan uzman sistemler geliştirmişler ve basit anlamda makine öğrenimini sağlamışlardır. 1980’lerde veri tabanı yönetim sistemleri yaygınlaşmış ve bilimsel alanlarda, mühendisliklerde vb. alanlarda uygulanmaya başlanmıştır. Bu yıllarda şirketler, müşterileri, rakipleri ve ürünleri ile ilgili verilerden oluşan veri tabanları oluşturmuşlardır. Bu veri tabanlarının içerisinde çok büyük miktarlarda veri bulunmaktadır ve bunlara SQL veri tabanı sorgulama dili ya da benzeri diller kullanarak ulaşılabilir. 1990’larda artık içindeki veri miktarı katlanarak artan veri tabanlarından, faydalı bilgilerin nasıl bulunabileceği düşünülmeye başlanmıştır. Bunun üzerine çalışmalara ve yayınlara başlanmıştır. 1989, KDD (IJCAI)-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısı ve 1991, KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesinin KDD (Knowledge Discovery and Data Mining) ile ilgili temel tanım ve kavramları ortaya koyması ile süreç daha da hızlanmış ve nihayet 1992 yılında veri madenciliği için ilk yazılım gerçekleştirilmiştir. 2000’li yıllarda veri madenciliği sürekli gelişmiş ve hemen hemen tüm alanlara uygulanmaya başlanmıştır [1].

Veri Madenciliği Uygulama Alanları

Veri madenciliği temel olarak mühendislik, tıp, bankacılık, ticari, eğitim ve telekomünikasyon alanında uygulama alanı bulmaktadır.  Bu alanlardan bazılarına ait olan daha spesifik örnekler şu şekildedir [3]:

  • Veri tabanı analizi ve karar verme desteği
  • Pazar Araştırması
  • Risk Analizi
  • Belgeler arası benzerlik
  • Müşteri kredi risk araştırmaları
  • Kurum kaynaklarının en optimal biçimde kullanımı
  • Geçmiş ve mevcut yapı analiz edilerek geleceğe yönelik tahminlerde bulunma

Veri madenciliği, büyük miktarlardaki verinin içinden geleceği tahmin edilmesinde yardımcı olacak anlamlı ve yararlı bağlantı ve kuralların bilgisayar programlarının aracılığıyla aranması ve analizidir. Ayrıca veri madenciliği, çok büyük miktardaki verilerin içindeki ilişkileri inceleyerek aralarındaki bağlantıyı bulmaya yardımcı olan ve veri tabanı sistemleri içerisinde gizli kalmış bilgilerin çekilmesini sağlayan veri analizi tekniğidir. Bu işlemlerin uygulama alanı oldukça geniştir. Bu alanlar içerisinde veri tabanı sistemleri, veri görselliği, yapay sinir ağları, istatistik, yapay öğrenme, vb. gibi disiplinler bulunmaktadır [6].

KAYNAKLAR:

  1. Savaş, S., Topaloğlu, N., Yılmaz, M. (2012). Veri Madenciliği ve Türkiye’deki Uygulama Örnekleri, İstanbul Ticaret Üniversitesi, Fen Bilimleri Dergisi, 11(21): 1-23.
  2. Öğüt, S. (2009). Veri Madenciliği ve Gelişim Süreci.
  3. Baykal, A. (2009). Veri Madenciliği Uygulama Alanları. D.Ü.Ziya Gökalp Eğitim Fakültesi Dergisi 7, 95-107.
  4. Yrd. Doç. Dr. Kadriye ERGÜN Ders Notları
  5. https://vizyonergenc.com/icerik/5-temel-soruda-veri-madenciligi-data-mining-nedir
  6.  http://teknobilisimyolu.blogspot.com/2018/03/veri-madenciligi.html