Microsoft SQL Server 2012 Parallel Data Warehouse Yeni Nesil Veri Ambarı ve Büyük Veri Çözümlerinde Çığır Açan Platform İçindekiler 4 Belge Özeti 4 Giriş 6 PDW'nin Yetenekleri 6 Ölçeklendirilebilir, Hızlı ve Güvenilir 7 Kullanımı ve Yönetimi Kolay 7 Veri Madenciliği ve Analiz Platformu 8 Müşterilerimiz Ne Söylüyor? 10 Özellikle Veri Ambarı İş Yükleri için oluşturuldu 10 Paralel İşlem için Tasarlandı 11 Donanım ve Yazılım Birlikte Tasarlandı 13 Günümüzdeki Veri Zorlukları için Ölçeklendirilebilir bir Çözüm 13 Kapasite Ekleme Kolaylığı 15 Hızlı Veri Yükleme Kolaylığı 17 Daha Fazla Veri Tutma Kolaylığı Microsoft SQL Server 2012 Parallel Data Warehouse 18 19 Verileri Birleştirme Kolaylığı Sorgular Neden Hızlı Çalışır 19 Sorgular Dağıtılmış Veriler Üzerinde Çalışır 20 Sorgular Yüksek Derecede Paraleldir 22 Veri Hareketi Hizmeti Verileri Hızla Taşır 22 Bellek içi Kümelenmiş Columnstore Dizinleri Sorgu Performansını İyileştirir 23 PDW'ye Neden Güvenebilirsiniz? 24 PDW’nin Donanım Yedekliliği 24 Yüksek Süreklilik 25 PDW'nin Kullanım ve Yönetim Kolaylığı 27 Veri Madenciliği ve Analiz Platformu 28 Hadoop Entegrasyonu için PolyBase 30 © 2013 Microsoft Corporation. Tüm hakları saklıdır. Bu belge “olduğu haliyle” sunulmaktadır. URL’ler ve diğer İnternet Sayfası referansları dâhil olmak üzere bu belge içerisinde sunulan bilgi ve düşünceler bildirilmeksizin değişebilir. Kullanımı ile ilgili riskler size aittir. Bu belge size herhangi bir Microsoft ürününe ait herhangi bir fikri mülkiyetle ilgili herhangi bir yasal hak sunmaz. Bu belgeyi kendi içinizde referans amacıyla kopyalayıp kullanabilirsiniz. Bu belgeyi kendi içinizde referans amacıyla değiştirebilirsiniz. 30 İş Zekâsı Entegrasyonu Özet Microsoft SQL Server 2012 Parallel Data Warehouse Belge Özeti Bu belge Paralel Data Warehouse’ın (PDW) zekice hazırlanmış tasarımını açıklamaktadır. Bu belge sayesinde PDW'nin nasıl çığır açıcı sonuçlar yarattığı ve SQL Server 2012 PDW'ye terfi ederek şirketinizin ne gibi avantajlar elde edeceği hakkında daha fazla bilgi alabilirsiniz. PDW'nin sunduğu yararlar size inanılmaz gelebilir, fakat gerçektir. Veri ambarlarının Hadoop ve ilişkisel verilerle entegre olması gibi veri ambarı iş yükleri için oluşturulmuş bir sistemin sonucudur. Microsoft® SQL Server® 2012 Parallel Data Warehouse (PDW) çözümü veri analizlerinizi hızlı bir şekilde çalıştırmak ve tek bir cihaz içerisinde depolamayı birkaç terabayttan 6 petabayt üzerine ölçeklendirebilmenize imkân sunmak için oluşturulmuş yeni nesil bir platformdur. PDW, veri merkezinize en yüksek performansı sunmak için, önceden yapılandırılmış ve kurulmuş donanım ve yazılımla gelir. Günümüzün Simetrik Çoklu İşlem (Symmetric Multi-Processing - SMP) veri tabanları ile kıyaslandığında PDW’nin Büyük Ölçekli Paralel İşlem (Massively Parallel Processing - MPP) tasarımı, sorguların saatler yerine dakikalar veya dakikalar yerine saniyeler içerisinde tamamlanmasını sağlar. PDW sadece hızlı ve ölçeklendirilebilir değildir. Aynı zamanda yüksek yedeklilik ve süreklilik için tasarlanmıştır; bu da PDW'yi işinizdeki kritik verileriniz konusunda güvenebileceğiniz bir platforma dönüştürmektedir. PDW sade bir tasarıma sahiptir; bu sayede hem öğrenmesi hem de yönetmesi kolaydır. Hadoop verilerini analiz etmek için sahip olduğu PolyBase teknolojisi ve İş Zekâsı araçlarıyla derinlemesine entegre olabilmesi, PDW’yi eksiksiz çözümler oluşturmak için kapsamlı bir platform haline getirmektedir. Giriş İşiniz verilere dayanıyorsa, devamlı artmakta olan verilerin depolanmasının, yönetilmesinin ve analiz edilmesinin ne kadar zor olduğunu biliyorsunuz. Etkin veri ambarlarında analiz edilebilecek durumdaki verilerin yeterli bir miktarını tutmak pahalıdır. Etkin ambarlar üzerinde ihtiyaç duyduğunuz verilere sahip olsanız bile, analiz ve raporlama işlemleri günümüzün simetrik çoklu işlem (SMP) sistemleri ile saatler ve hatta günler sürebilmektedir. Şirketler günümüzde, ilişkisel olmayan Hadoop verilerinin sunduğu değeri analizlerine dâhil etme konusunda da zorluklarla karşı karşıyadır. Bunun sonucunda şirketlerdeki analistler, günümüzün pazarlarında rekabet etmek için gerekli olan ve verilere dayanan ticari kararları yeterince hızlı ve doğru bir şekilde verememektedirler. Bu, modern veri alanındaki mücadelelerden birisidir. Veriler hakkındaki bu güncel sorunları siz de yaşıyorsanız, Microsoft'un veri depolama ve Büyük Veri entegrasyonu için sahip olduğu yeni nesil platformu SQL Server 2012 Parallel Data Warehouse'a (PDW) geçmeyi değerlendirin. PDW’nin büyük ölçekli paralel işlem (MPP) tasarımı sayesinde sorgular, simetrik çoklu işlem (SMP) veri tabanı yönetim Microsoft SQL Server 2012 Parallel Data Warehouse 4 sistemleri üzerinde kurulmuş geleneksel veri ambarları ile kıyaslandığında ortalama 50 kat daha hızlı bir şekilde tamamlanmaktadır. "50 kat hız", sorguların saatler yerine dakikalar veya dakikalar yerine saniyeler içerisinde tamamlanacağı anlamına gelmektedir. Bu çığır açıcı performans sayesinde ticari analistleriniz daha kapsamlı sonuçları daha hızlı elde edebilir, plansız sorguları daha kolay bir şekilde yürütebilir ve detaylara derinlemesine girebilir. Sonuç olarak şirketiniz daha iyi kararları daha hızlı bir şekilde alabilir. Çığır açıcı sorgu performansının yanı sıra PDW aşağıdakileri de kolaylaştırır: Mevcut sisteminize "ölçeklendirme birimleri" ekleyerek veri ambarınızı tek bir cihazda birkaç terabayttan 6 petabaytın üzerine büyütmek, Dâhili yüksek yedeklilik ve yüksek süreklilik sayesinde verilere ihtiyacınız olduğunda ulaşabilmek, Verileri yükleme ve birleştirme ile ilişkili modern veri sorunlarını çözmek, PDW'nin yüksek derecede paralelleştirilmiş PolyBase teknolojisini kullanarak Hadoop verilerini ilişkisel verilerle entegre etmek, Kapsamlı ve eksiksiz çözümler geliştirmek için İş Zekâsı araçlarını kullanmak. Bu nasıl mümkün olur? PDW'nin nasıl bu kadar iyi sonuçlar elde edebildiğini bilmek ister misiniz? Bu makalede PDW'nin gerçek senaryolardaki performansı ve bu sonuçları nasıl elde edebildiği anlatılmaktadır. Microsoft SQL Server 2012 Parallel Data Warehouse 5 PDW'nin Yetenekleri PDW bir üründen daha fazlasıdır. PDW yeni nesil veri depolama ve Büyük Veri çözümleri için bir veri platformudur. Ölçeklenebilir, Hızlı ve Güvenilir Ölçeklenebilir PDW, depolamayı tek bir cihazda birkaç terabayttan 6 petabaytın üzerine çıkarabilen çığır açıcı bir ölçeklenebilirlik sağlamaktadır. Daha fazla bilgi işlem ve depolama kapasitesi eklemek için yeni bir sunucu ve ambar satın almayı gerektiren SMP sistemlerinden farklı olarak, PDW mevcut cihaza "ölçeklendirme birimleri" ekleyerek genişler. Kapasiteyi ekledikten sonra verilerin yeniden dağıtılması ve I/O'nun yeni ölçeklendirme birimlerinde dengelenmesi için gereken tüm işi PDW yapar. PDW'nin aşağıda belirtilen faydaları, özellikle veri ambarı iş yükleri için tasarlanmış olan başarılı sisteminin sonuçlarıdır. Hızlı PDW’nin Büyük Ölçekli Paralel İşlem (MPP) tasarımı, verilerin gerçek zamanlı olarak yüklenebilmesine ve karmaşık sorguları Simetrik Çoklu İşlem (SMP) sistemlerinden 50 kata kadar daha hızlı oranlarda bitirmesine imkân verir. Sorgular günümüzdeki SQL Server 2008 R2, SQL Server 2012, Oracle veya DB2 gibi SMP veri tabanlarıyla kıyaslandığında dakikalar yerine saniyeler ve saatler yerine dakikalar içerisinde tamamlanır. Günümüzdeki SMP sistemleriyle çalıştırılması mümkün olmayan bazı sorgular PDW üzerinde tamamlanabilir. Şirketler artık hızlı sonuç elde etmek için önceden hazırlanmış raporlar ve özetlenmiş sonuçlarla yetinmek zorunda değildir. Anlık analizler ve detaylı raporlar artık sürekli olarak elde edilebilmektedir. Güvenilir PDW verilerinizi güvenli ve kullanılabilir halde tutma konusunda güvenebileceğiniz bir platformdur. Tüm donanım ve yazılım bileşenleri, yüksek yedeklilik ve yüksek süreklilik için tasarlanmıştır. Kullanıcı verileri her zaman, verileri güvende tutma konusunda ünlenmiş olan SQL Server 2012 tarafından depolanır ve yönetilir. Microsoft SQL Server 2012 Parallel Data Warehouse 6 Kullanımı ve Yönetimi Kolay PDW basit bir tasarıma sahiptir. Cihazın sahip olması gereken karmaşıklık zaten içerisine bütünleşmiş edilmiş olduğundan, siz detaylarla uğraşmak zorunda kalmazsınız. Örneğin PDW, verilerin tamamının cihaz düğümlerine dağıtılması için gereken tüm detayları kendisi uygular, sorguların paralel bir şekilde işlenmesi için gerekli ekstra adımları atar ve basit donanım ve yazılım yapılandırma ayarlarınızı kendiliğinden yönetir. PDW veri merkezinize önceden yapılandırılmış ve test edilmiş olarak gelir; sizin tek yapmanız gereken PDW'yi veri merkezinize takmak ve ağ iletişimi ortamınıza göre yapılandırmaktır. Daha veri merkezinize geldiği gün kullanmaya başlayabilirsiniz! Bu sayede öğrenme zamanı en düşük seviyededir. Yeni PDW uzmanları istihdam etmeye gerek kalmadan çalışanlarınızı kolayca eğitebilirsiniz. SQL Server veri tabanı yöneticileriniz, SQL Server bilgilerini kolayca PDW'ye aktarabilir. PDW'nin kullanımı basittir ve aşağıdakileri yönetmeniz gerekmez: Veri Madenciliği ve Analiz Platformu Disk veya veri tabanı alt sistemleri Depolama alanı Paralel sorgular Dağıtılmış veri Yazılım yapılandırması Donanım yapılandırması Hadoop ile Entegre PDW’nin PolyBase teknolojisi, Transact-SQL kullanarak ve birçok yeni beceriyi öğrenmek zorunda kalmadan Hadoop verilerini sorgulamanıza ve ilişkisel verilerinizle birleştirmenize imkân verir. PolyBase’in Transact-SQL arabirimini kullanarak Hadoop içerisinde MapReduce sorgularını çalıştırmak için gereken becerileri kazanmadan da derinlemesine veri madenciliği, raporlama ve analizler gerçekleştirebilirsiniz. Örneğin sorgular Hadoop ve PDW verilerini tek bir aşamada birleştirebilir, Hadoop verileri PDW içerisinde ilişkisel veriler olarak saklanabilir ve sorgu sonuçları tekrar Hadoop üzerinde tutulabilir. PDW’nin PolyBase teknolojisi, Hadoop verilerini hızla analiz etmek için PDW’nin MPP mimarisini kullanmanın kolay bir yoludur. PolyBase size ihtiyaç duyduğunuz Hadoop verilerini gerektiği anda yapılandırma ve analiz için PDW’ye taşıma esnekliği sunar. PolyBase sayesinde Hadoop üzerinde çok yavaş çalışan sorgular artık PDW içerisinde hızla gerçekleştirilebilir. Bu sayede çok sayıda yeni veri entegrasyonu ve analiz imkânları oluşur. Microsoft SQL Server 2012 Parallel Data Warehouse 7 İş Zekâsı Araçlarıyla Entegre PDW’nin İş Zekâsı (BI) araçlarıyla derinlemesine entegrasyonu PDW’yi uçtan uca veri madenciliği ve analiz çözümleri için kapsamlı bir platforma dönüştürmektedir. PDW, Reporting Services, Analysis Services, PowerPivot ve PowerView gibi Microsoft İş Zekâsı çözümleriyle entegre olmaktadır. PDW aynı zamanda Business Objects, Cognos, SAP Data Integrator, Tableau, MicroStrategy, QlikView, Oracle Business Intelligence ve TIBCO Spotfire gibi sayısı gittikçe artan çözümle de entegre olmaktadır. Müşterilerimiz Ne Söylüyor? PDW müşterileri harika sonuçlar elde ediyor. Aşağıda görebileceğiniz bu sonuçlar birçok kullanıcının PDW hakkında söyledikleriyle örtüşmektedir. Sorgular Hızlıdır Sorgularımız PDW üzerinde 76 kat daha hızlı tamamlanıyor. Bu sonuç PDW’nin 1,5 TB’yi 134 GB’ye sıkıştırmasından sonra elde edildi. Bir aylık veriler üzerindeki sorgularımız 1,5 saniyeden daha kısa bir sürede tamamlanıyor. SQL Server 2008 R2 ile 7 günlük veriler üzerindeki aynı sorgular 2-3 dakika sürüyordu. Sorgularımız PDW üzerinde 25 kat daha hızlı tamamlanıyor. Sorgular sorgu başına ortalama 23 saniyede tamamlanıyor. SMP sistemimizde ise sorgular sorgu başına 5 dakika 36 saniyede tamamlanıyordu. Sorgularımız PDW üzerinde 18 kat daha hızlı tamamlanıyor. Sorgular sorgu başına ortalama 53 saniyede tamamlanıyor. SMP sistemimizde sorgular sorgu başına ortalama 16 dakikada tamamlanıyor. PDW üzerinde aşırı yük olmasına rağmen sorgu tamamlanma süreleri sadece %16’lık bir düşüş yaşadı. SMP’den Daha Yüksek Ölçeklendirme PDW eski sistemimizde tamamlayamadığımız sorguları tamamlamamızı sağladı. Sorgularımızı 40 çekirdekli, 2 terabayt RAM’li ve büyük veri deposuna sahip bir DL980 üzerinde çalıştırsak bile sorgular tamamlanana kadar bellek doluyordu. Verilerimizi PDW’ye yükledikten sonra 200 kullanıcılı bir sisteme ait 7 yıllık veri üzerinde sorgular çalıştırabildik. Bu sorgular sorgu başına ortalama 689 saniyede tamamlandı. SMP performans kısıtlamaları yüzünden sahip olduğumuz 40 veri tabanını 10 sunucu üzerinde paylaştırmak zorunda kalıyorduk. PDW sayesinde tüm veri tabanlarımızı birleştirip tek bir veri tabanı haline getirebildik. Artık veriyi tutmak ve yüklemek çok daha kolay. Üstelik tek bir veri tabanı üzerinde birleştirme sorguları da çalıştırabiliyoruz. Saatler Yerine Dakikalar Süren Hızlı Yükleme Bir saatlik verileri bir saatten daha az bir sürede yüklememiz gerekiyor. Bir saatlik veri içerisinde 6 milyar kayıt mevcut ve bu verileri PDW’ye bir saatten daha az bir sürede yükleyebiliyoruz. Microsoft SQL Server 2012 Parallel Data Warehouse 8 Günlük iş yükümüz PDW ile artık 5,5 dakika sürüyor; PDW olmadan bu iş 2,5 saat sürüyordu. İş yükü PDW ile 27 kat daha hızlı. 520 milyon satırı PDW’ye 13 dakikada yükleyebiliyoruz, eski sistemimizde aynı veriyi yüklemek 16 saat sürüyordu. PDW karma iş yüklerimizde iyi bir performans gösteriyor; kullanıcılarımız sorgularını yapmaya devam ederken PDW yüklemeleri de arka planda devam edebiliyor. Yüksek Veri Sıkıştırma Oranları PDW, verileri disk üzerinde tutmak için bellek içi kümelenmiş columnstore dizinlerini kullanarak yüksek sıkıştırma oranları elde eder. Bu sayede depolama masraflarını azaltır ve sorgu performansını iyileştirir. Müşterilerin elde ettikleri sıkıştırma oranlarına örnekler şunlardır: 1,5 TB (sıkıştırılmamış) veri 134 GB’ta sıkıştırılmıştır (7x sıkıştırma). 5,5 TB (sıkıştırılmamış) veri 400 GB’ta sıkıştırılmıştır (14x sıkıştırma). 120 GB (sıkıştırılmamış) veri 2 GB’ta sıkıştırılmıştır (60x sıkıştırma). Müşteri Referansları Örnek bir başarı hikâyesinde (http://www.microsoft.com/casestudies/Case_Study_Detail.aspx?CaseStu dyID=710000002669) satış ve pazarlama hizmetleri şirketi CROSSMARK arz ve talep ile ilgili terabaytlarca veriden daha hızlı ve daha detaylı bilgi elde etme ihtiyacı duymuştur. CROSSMARK, PDW sayesinde bunu başarmış; bu sayede hizmetlerini iyileştirmiş, raporlarını %50 oranında daha hızlı oluşturabilmiş, çalışanların memnuniyetini arttırmış ve tasarruf etmiştir. Microsoft SQL Server 2012 Parallel Data Warehouse 9 Özellikle Veri Ambarı İş Yükleri için Oluşturuldu “PDW’yi daha veri merkezimize geldiği gün kullanmaya başladık. Cihaz, donanımı yapılandırılmış ve yazılımı kurulmuş halde geldi.” PDW özellikle veri ambarı iş yükleri için tasarlanmış cihaz tabanlı bir çözümdür. Donanımı ve yazılımı, yüksek ölçeklenebilirlik, performans, güvenirlik ve yüksek süreklilik sunmak üzere dikkatli bir şekilde tasarlanmıştır. SQL Server 2012, günde binlerce, hatta milyonlarca kaydı güncelleyen operasyonel (OLTP) iş yüklerinde harika bir performans gösterirken, PDW ise kurumunuzun her gün oluşturduğu operasyonel veya Hadoop verilerini yükleme, depolama ve analiz etme konusunda mükemmel performans gösterecek şekilde tasarlanmıştır. Paralel İşlem için Tasarlandı PDW, çığır açıcı sorgu performansı gibi bu makalede ele alınan diğer performans kazanımlarını elde etmek için SQL Server 2012 Simetrik Çoklu İşlem (SMP) tasarımını genişletmek yerine Büyük Ölçekli Paralel İşlem (MPP) tasarımını kullanmaktadır. Şekil 1: SQL Server 2012 PDW yüksek performans ve ölçeklenebilirlik elde etmek için MPP tasarımını kullanmaktadır. Microsoft SQL Server 2012 Parallel Data Warehouse 10 Sorgu yüksek derecede paralel yürütülmektedir. Kullanıcı verileri Hesaplama düğümleri (Computing Nodes) olarak adlandırılan işlem ve depolama birimleri arasında dağıtılmıştır. Her bir Hesaplama biriminin kendine ait depo, işlemci ve belleği vardır; bunlar birlikte bağımsız bir işlemci birimi olarak çalışır. Kontrol düğümü PDW’nin beynidir ve her bir kullanıcı sorgusunun tüm Hesaplama birimleri üzerinde nasıl çalıştırılacağını belirler. Bu sayede de sorgular hızla tamamlanır! PDW’nin temelinde SQL Server 2012 bulunur ve dağınık kullanıcı verilerini depolamak, yönetmek ve üzerlerinde sorgular çalıştırmak için her bir Hesaplama birimi üzerinde çalışır. PDW özel olarak bir SQL Server 2012 sürümüne sahiptir. Bu sürüm, Hesaplama düğümleri üzerinde yüksek sıkıştırma oranları ve hızlı performans elde etmek üzere güncellenebilir bellekte kümelenmiş columnstore dizinleri kullanır. Ayrıca PDW, veri güvenliği konusunda ünlenmiş olan SQL Server 2012 sayesinde verilerinizi güvende tutar. Donanım ve Yazılım Birlikte Tasarlandı PDW en yüksek performans ve ölçeklenebilirlik elde etmek için donanım ve yazılımın birlikte tasarlandığı cihaz tabanlı bir çözümdür. PDW veri merkezinize, yazılım ve donanımı önceden tasarlanmış, yapılandırılmış ve test edilmiş olarak gelir. Cihaz zaten CPU, bellek, I/O, depolama, ağ ve diğer kaynakları dengeleyecek şekilde yapılandırılmış olduğundan ayar yapmayı gerektirmez. Kullanmak için tek yapmanız gereken PDW’yi kendi ağınıza kurmaktır. PDW cihazının ilk rafı temel raf olarak adlandırılır. Her cihaz, en az bir temel rafa sahiptir. Bunun üzerinde, donanım satıcısına bağlı olarak,2 veya 3 Hesaplama düğümü bulunabilir. İş ile ilgili ihtiyaçlarınız değiştikçe ölçeklendirme birimlerini temel rafa ekleyerek PDW’yi genişletebilirsiniz. PDW, temel raf dolduğunda, genişletme rafları olarak adlandırılan yeni raflar ve bu rafların üzerine ölçeklendirme birimleri ilave edilerek genişletilir. Temel raf üzerinde yedekli ağ bağlantısı için iki InfiniBand ve iki Ethernet anahtarı bulunur. Adanmış bir sunucu Kontrol düğümünü ve Yönetim düğümünü çalıştırır. Raf içerisinde yük devretme için ayrı bir sunucu da gelmektedir. Seçenek olarak ikinci bir boş sunucu da ekleyebilirsiniz. Temel raftaki Hesaplama düğümlerinin sayısı donanım satıcısına bağlı olarak değişmektedir. Örneğin HP ölçeklendirme birimi başına 2 Hesaplama düğümüne sahipken Dell 3 Hesaplama düğümüne sahiptir. Aşağıdaki görselde toplam 8 Hesaplama düğümüne sahip bir HP temel rafı ve 3 ölçeklendirme birimi yer almaktadır. Dell’in temel rafı 9 Hesaplama düğümüne kadar ölçeklenebilmektedir. Microsoft SQL Server 2012 Parallel Data Warehouse 11 Şekil 2: Paralel işlem ve ölçeklendirilebilirlik için yazılım ve donanım birlikte tasarlanmaktadır. Yüksek Hızlı InfiniBand Ağı Cihazın sorgu performansında çığır açan sonuçlar elde edebilmesi için ağ iletişimi de çok önemlidir. Donanım çift InfiniBand ağı ile birlikte gelir ve FDR InfiniBand ve Mellanox ConnectX-3 FDR InfiniBand ağ adaptörlerini kullanarak 56 Gb/sn veri transfer hızlarını destekler. Her bir raf kurumsal ağınıza bağlanmak için yedekli Ethernet anahtarlarına sahiptir. Hızlı yükleme ve veritabanı yedekleme için kendi yükleme ve yedekleme sunucularınızı cihazın InfiniBand ağına bağlamanızı tavsiye ediyoruz. Microsoft SQL Server 2012 Parallel Data Warehouse 12 Günümüzdeki Veri Zorlukları için Ölçeklenebilir bir Çözüm “Birden çok veri tabanından gelen verilerimizi PDW üzerinde birleştirebiliyor ve burada eski veri tabanlarımızda mümkün olmayan analiz sorguları çalıştırabiliyoruz. PDW çığır açan sorgu performansı ve ölçeklenebilirlikten daha fazlasını yapar. PDW, günümüzdeki şirketlerin daha hızlı ve daha doğru ticari kararlar almak için verileri yükleme, depolama, yönetme ve analiz etme konusunda karşı karşıya kaldığı sorunlar göz önünde bulundurularak tasarlanmıştır ve bu sorunları gidermeyi amaçlar. Kapasite Ekleme Kolaylığı “Verilerimiz beklediğimizden daha hızlı büyüyor ve önümüzdeki 12 ay içerisinde daha fazla kapasite eklememiz gerekecek.” Verileriniz artıkça daha fazla kapasite için planlama yapmak durumunda kalacaksınız. SQL Server 2008 R2, SQL Server 2012, Oracle veya DB2 gibi SMP sistemlerinde kapasite eklemenin tek yolu daha hızlı işlemcilere, daha fazla bellek ve depolamaya sahip daha büyük sistemler satın almaktır. Artımlı büyüme, özellikle de daha fazla işlemci eklemek için, uygulanabilir bir çözüm değildir. Daha büyük bir sistem satın alsanız bile, giderek artan işlem ve depolama gereksinimlerinizi tek bir sistem ile verimli bir şekilde karşılamak mümkün olamamaktadır. Bu sebeple kurumlar genellikle iş yüklerini birden çok bilgi işlem kaynağı arasında dağıtmak ve bunun için kendi yazılımlarını geliştirmek zorunda kalırlar. Bu, zor ve masraflı bir süreçtir. Microsoft SQL Server 2012 Parallel Data Warehouse 13 Şekil 3: PDW’nin MPP tasarımı karşısında günümüzdeki SMP sistemlerinin ölçeklenebilirliği. PDW’nin MPP tasarımı sayesinde kapasite eklemek için yeni bir sistem satın almak zorunda kalmazsınız. PDW, farklı olarak, mevcut sisteme yapılan ilavelerle büyür. Böylece ihtiyacınız olmayan depolama alanlarını almak ve boşa harcamak zorunda kalmazsınız. Veri artış hızı beklediğinizden daha hızlı olursa, küçük alımlar yaparak kapasitenizi hızlı bir şekilde arttırabilirsiniz. Ayrıca kapasitenizi arttırmak için verilerinizi yeni bir sisteme taşımak zorunda da kalmazsınız. Uygulamanızı yeniden tasarlamak veya dağıtım mekanizmasını yeniden oluşturmak zorunda kalmadan sisteminizi ölçeklendirebilirsiniz. PDW, işlem gücü, bellek ve depolamayı 2 – 3 Hesaplama düğümünden oluşan ölçeklendirme birimleri ekleyerek genişletebilir. Ölçeklendirme yaparak kapasitenizi tek bir cihaz üzerinde birkaç terabayttan 6 petabayt üzerine çıkarabilirsiniz. Bir raf dolduğunda bir başka raf satın alabilir ve yeni rafı Hesaplama düğümleri ile doldurmaya başlayabilirsiniz. Verilerinizi yeni bir sisteme taşımanız gerekmediği gibi, veritabanı dosyalarınızı daha fazla düğüm kullanmak için yeniden yapılandırmanız da gerekmez. Verilerinizi Hesaplama birimleri arasında dağıtma işini PDW sizin için yapar. Aşağıdaki şekilde bir DELL genişleme rafı, ölçeklendirme senaryoları ile birlikte gösterilmektedir. Microsoft SQL Server 2012 Parallel Data Warehouse 14 Şekil 4: Raf dolduktan sonra PDW, ölçeklendirme birimlerinin genişleme raflarına eklenmesiyle büyür Hızlı Veri Yükleme Kolaylığı “Eski sistemimizde bir günlük veriyi yüklemek 4 saat sürüyordu. PDW ile aynı iş sadece birkaç dakika sürüyor ve herhangi bir aksama olmadan verileri yükleyebiliyoruz.” Veri ambarınızda bolca yer olabilir, fakat verilerinizi SQL Server'a yeterince hızlı taşıyamıyorsanız yükleme işlemi bir darboğaz oluşturur. PDW, verilerinizi SQL Server 2012'dan 7 kat hızlı yükler. Yükleme işi PDW’de SMP SQL Server’dan hızlıdır çünkü veri paralel olarak SQL Server’ın birden çok örneğine yüklenir. Örneğin 10 Hesaplama düğümüne sahipsiniz ve 1 Terabayt veri yüklemek istiyorsunuz, bu durumda 10 adet birbirinden bağımsız SQL Server 2012 veri tabanınız olacak ve bu veri tabanlarına 100 GB’lik veriyi sıkıştırarak aynı anda yüklüyor olacaksınız. Microsoft SQL Server 2012 Parallel Data Warehouse 15 Birçok müşteri için bu durum 1 TB verinin SQL Server 2012’nin tek bir örneğine yüklenmesi ile kıyaslandığında 7 kat hızlı gerçekleşmektedir. Şekil 5: Veri paralel olarak SQL Server’ın birden çok örneğine yüklenir Yükleme Araçları: dwloader Komut İstemcisi Yükleme Aracı SQL Server Integration Services (SSIS) Verilerinizi Hesaplama düğümlerine yüklemek amacıyla dwloader’ı kullanmak için, önce kendi ETL sürecinizi kullanıp yüklemek istediğiniz kaynak verileri oluşturun. Kaynak veriler, hedef tablonuzun şemasıyla örtüşecek şekilde biçimlendirilmelidir. Kaynak veriyi bir veya daha fazla metin belgesinde veya gzip belgesinde tutun ve belgelerinizi yükleme sunucunuzdaki dizinin aynısına kopyalayın. Ardından, yükleme sunucunuz (veya ETL sunucunuz) üzerinde dwloader’ı çalıştırın. dwloader yükleme işini yapmak için Kontrol düğümü ile iletişim kuracaktır. Daha Fazla Veri Tutma Kolaylığı “PDW sayesinde son birkaç seneki eğilimleri analiz edebilecek kadar veriyi saklayabiliyoruz. Eski sistemimizde tutabildiğimiz veriyle Microsoft SQL Server 2012 Parallel Data Warehouse 16 sadece bir senelik eğilimleri analiz edebiliyorduk.” Daha fazla analiz ve bilgi için talep arttıkça, şirketler de daha fazla çevrimiçi veriyi veri ambarlarında tutma zorunluluğu ile karşı karşıya kalıyor. Veri ambarları genellikle, analistlerin doğru ticari kararlar verebilmeleri esi için gereken veri miktarını barındıramazlar. Ayrıca mevzuat yüzünden de bazı verileri uzun süre boyunca çevrimiçi tutmanız gerekebilir. Veri artışını yönetmenin yaygın bir yolu, verilerin tutulması için kayan pencere yaklaşımını kullanmaktır. Bu yaklaşımda, yeni verilere yer açmak için eski veriler kasetlere veya diğer ucuz depolama birimlerine aktarılır. Örneğin yalnızca 12 aylık verileri çevrimiçi olarak veri merkezinizde tutabiliyorsanız, her ay en eski verilerinizi kasetlere aktararak yeni verilere yer açmak zorunda kalırsınız. Kasetler üzerinde çevrimdışı olarak tutulan verilere erişmek zordur ve pratik bir şekilde analiz edilemezler. Bu verileri analiz etmek için öncelikle çevrimiçi bir sisteme aktarmak gerekir. Bu işlem vakit alır ve analiz etmek üzere geri alacağınız veriler için alan oluşturmanız gerekir. Bazen kasetleri bulmak bile zor olabilir. PDW’nin ölçeklendirilebilir mimarisi, kapasite eklemeyi kolaylaştırır ve bu sayede analizler ve raporlamalar için daha fazla veriyi çevrimiçi olarak tutabilirsiniz. Ayrıca SMP sistemlerinde de olduğu gibi, verilerinizi bölümlere ayırabilir ve ihtiyacınıza göre belirli bölümleri veri ambarınızda arşivleyebilirsiniz. Microsoft SQL Server 2012 Parallel Data Warehouse 17 Verileri Birleştirme Kolaylığı "Verilerimiz çok farklı yerlerdeydi, nerede olduklarını izleyemediğimiz gibi, analiz de edemiyorduk. Şimdi PDW sayesinde çok sayıda veri tabanımızı PDW üzerinde birleştirdik.” Şirketler internet tıklamaları, müşteri işlemleri, sosyal ağlar ve daha birçok veri kaynağından veri alır. Veri büyüklüğünden dolayı farklı yerlerden gelen verileri tek bir veri merkezinde birleştirmek genellikle mümkün olmaz. Bunun sonucunda veriler dağınık ve yönetimi zor bir hale gelir. Verilerinizi tek bir merkezi veri ambarında birleştirmek iyi olmaz mıydı? Bu, veri ambarınızı çok daha verimli bir hale getirir, çünkü tüm veri tek bir yerdedir ve merkezi olarak yönetilebilir. Veri ambarı yönetimini daha basit bir hale getirmek toplam sahip olma maliyetini de azaltır. Çünkü sadece tek bir sistemi yönetmeniz gerekir ve kapasite artışı planlamasını da tek bir sistem için yapabilirsiniz. Ayrıca bu sayede kurumunuz tek bir sistem üzerinde tutulan veya birden çok veritabanı arasından seçilecek verilerden herhangi biri üzerinde sorgu yapabilir. Verileri tek bir veri ambarında birleştirmenin işiniz için birden çok faydası bulunur: Donanım, ömrünü tamamlarken birden cihazlarınızı yenilemekle uğraşmak yerine, verilerinizi PDW’ye aktarabilir ve tek bir sistem üzerinde yönetebilirsiniz. Veri tabanı yöneticileri veri ambarındaki tüm verileri tek bir yerden yönetebilir. Bu sayede işleri çok kolaylaşır, yönetim masrafları azalır. PDW, tüm sunucular üzerinde yazılım güncellemesi yapmak için Windows Server Update Services’dan faydalanır. Windows Server Update Services üzerinden yapılacak tek bir yazılım güncellemesi cihaz içerisindeki tüm sunucuları günceller. Tüm veri setleriniz cihaz tarafından sunulan yedeklilik ve yüksek süreklilik oranlarından faydalanır. Cihazın sağlığını ve durumunu tek bir yerden izleyebilirsiniz. Veri tabanı ve cihaz yöneticileri, sorguların durumunu ve cihazın sağlığını PDW’nin sahip olduğu bir konsol aracılığıyla takip edebilirler. Microsoft SQL Server 2012 Parallel Data Warehouse 18 Sorgular Neden Hızlı Çalışır Analistlerin birden çok veri kaynağını içeren sorgular yapabileceği daha kapsamlı analizler yapabilirsiniz. Bu sayede farklı veri kaynaklarından gelen verileri çapraz olarak analiz etmek kolaylaşır. “PDW’yi kullanmaya başladığımızda sorgularımızın ne kadar hızlı tamamlandığına inanamadık. Sorguların gerçekten çalıştığına kendimizi inandırmak için sorgularımız yeniden çalıştırdık.” PDW’nin MPP tasarımı, sorgu performansı konusunda bir dönüm noktasıdır. Sorguların hızlı tamamlanmasının sebebi, PDW’nin dağıtılmış veriler üzerinde paralel olarak çalışmasıdır. PDW’nin maliyet tabanlı sorgu iyileştiricisi her bir paralel sorgunun nasıl hızlı bir şekilde çalıştırılacağını belirler. Ardından veriler, Data Movement Service (DMS) ile verimli bir şekilde Hesaplama düğümlerine taşınır. Sorgular Dağınık Veriler Üzerinde Çalışır PDW, paralel sorgu işlemlerini desteklemek için bulgu tablosunun satırlarını Hesaplama düğümlerine dağıtır ve tabloyu daha küçük fiziksel tablolar halinde depolar. Her bir Hesaplama düğümü içerisindeki dağınık veriler, bağımsız disk çiftlerinde yer alan 8 fiziksel tablo içerisinde tutulur. Her bir bağımsız depolama alanı, bir dağıtım olarak adlandırılır. PDW, sorguları her bir dağıtım üzerinde paralel olarak çalıştırır. Her bir Hesaplama düğümü 8 dağıtıma sahip olduğundan, bir sorgudaki paralellik seviyesi Hesaplama düğümlerinin sayısı ile belirlenir. Örneğin cihazınızda 8 Hesaplama düğümü varsa, sorgularınız cihaz üzerindeki 64 dağıtım üzerinde paralel olarak çalışacaktır. Aşağıdaki şekil dört Hesaplama düğümü ve 32 dağıtıma gönderilen veriyi göstermektedir. Microsoft SQL Server 2012 Parallel Data Warehouse 19 Şekil 6: Bulgu tablosundaki satırlar, tüm Hesaplama düğümü dağıtımları üzerinde tutulur PDW bir olgu tablosunu dağıttığında, satırların hangi dağıtıma ait olduğunu belirlemek için sütunlardan birini kullanır. Bir hash fonksiyonu, her bir satırı, eşleştirildiği sütundaki değere göre bir dağıtıma atar. Tablolar içerisindeki her bir satır sadece bir dağıtıma aittir. Tabloyu oluştururken en iyi dağıtım sütununu seçememiş olsanız bile, farklı bir dağıtım sütunu belirlemek için tabloyu kolayca yeniden oluşturabilirsiniz. PDW tüm tabloların dağıtılmasını gerektirmez. Küçük ölçekli tablolar genellikle her bir Hesaplama düğümünde çoğaltılır. Veriler her zaman tüm Hesaplama düğümlerinde kullanılabilir olduğundan, onları farklı düğümlere taşıyarak zaman kaybetmektense, küçük tabloları çoğaltmak sorgu hızını artırır. Sorgular Yüksek Derecede Paraleldir PDW’nin maliyet tabanlı sorgu iyileştiricisi, paralel sorguların hızlı çalışmasını ve doğru sonuçlar üretmesini sağlayan “gizli malzemedir”. Microsoft’un kapsamlı araştırma ve geliştirme çalışmalarının sonucunda ortaya çıkan patentli algoritmalar kullanarak yüksek performanslı sorgu planları oluşturabilmektedir. Paralel sorgu planı veya diğer adıyla “dsql” planı, sorguyu paralel olarak çalıştırmak için gerekli olan tüm operasyonları kapsar. Böylece PDW, paralel işlemlerin tüm zorluklarıyla başa çıkar ve sorguyu arka planda sorunsuz bir şekilde gerçekleştirir. Sonuçlar istemciye geri gönderilirken, sorgu sanki SQL Server’ın sadece bir örneği üzerinde çalıştırılmış gibi görünür. Microsoft SQL Server 2012 Parallel Data Warehouse 20 PDW’nin "arka planda” yürüttüğü sorgu işlemi aşağıdaki şekilde gösterilmektedir. Şekil 7: PDW, sorguları hızlı ve doğru bir şekilde paralel olarak çalıştıran bir sorgu planı seçmektedir. Öncelikle bir sorgu istemcisi, paralel sorgu sürecini koordine edecek Kontrol düğümüne bir Transact-SQL kullanıcı sorgusu gönderir. Tüm sorgu istemcileri SQL Server Native Client veya .NET'e bağlanabilir; dolayısıyla sorguyu göndermek için SQL Server Data Tools, sqlcmd veya kendi uygulamanızı kullanabilirsiniz. Sorgu İstemcileri SQL Server Native Client veya .Net Framework’e bağlanan müşterilere ait LOB uygulamaları SQL Server Data Tools SQL Server’ın sqlcmd Komut İstemi SQL İstemcisi Sorguyu aldıktan sonra PDW’nin maliyet tabanlı paralel sorgu iyileştiricisi, sorguyu Hesaplama düğümleri üzerinde paralel olarak çalıştırmak için, bazı istatistikler kullanarak sorgu planını oluşturur. Kontrol düğümü, dsql planı olarak adlandırılan paralel sorgu planını Hesaplama düğümlerine gönderir. Ardından Hesaplama düğümleri, sorguyu kendilerine ait veriler üzerinde paralel olarak yürütür. Hesaplama düğümlerinin her biri, kendilerine gönderilen sorguyu gerçekleştirmek için SQL Server 2012’yi kullanır. Hesaplama düğümleri işlemi tamamladığında sonuçlar hızlı bir şekilde Kontrol düğümü üzerinden istemciye geri gönderilir. Tüm bunlar, veriler Kontrol düğümü Microsoft SQL Server 2012 Parallel Data Warehouse 21 üzerinde kalmadan ve Kontrol düğümü üzerinde bir darboğaz oluşturmadan çok hızlı bir şekilde gerçekleşir. Veri Hareketi Hizmeti Verileri Hızla Taşır Bellek içi Kümelenmiş Columnstore Dizinleri Sorgu Performansını İyileştirir PDW verileri bir arada bulunan verilerden yararlanır, yani bir sorguyu çalıştırmadan önce Hesaplama düğümü üzerinde doğru veriler doğru zamanda bulunmak zorundadır. Aynı dağıtım sütununu kullanan iki tablo, üzerlerindeki veriler taşınmadan birleştirilebilirler. Ancak farklı sütunlar üzerinde dağıtılmış olan iki tablo birleştirilirken, veri hareketi zorunludur. PDW, verileri taşımak için Data Movement Service’tan (DMS) yararlanır. DMS sorguyu gerçekleştirebilmek için sadece gerekli miktarda veriyi taşır. Veri taşıma zaman aldığından, sorgu iyileştiricisi sorgu planını oluştururken, veri taşıma maliyetini de dikkate alır. PDW, sorgu performansını iyileştirmek ve verileri daha verimli bir şekilde depolamak için bellekte kümelenmiş columnstore dizinlerini kullanır. Bu dizinler güncellenebilirdir ve verilere, dağıtımları tamamlandıktan sonra uygulanır. Kümelenmiş columnstore dizinleri, verileri depolamak, geri almak ve yönetmek için oluşturulmuş bir teknolojinin ürünüdür. Bu teknoloji, columnstore olarak adlandırılan bir sütunlu veri formatı kullanır. Veri, sütun segmentleri olarak adlandırılan bir dizi parçalı sütun halinde sıkıştırılır, depolanır ve yönetilir. Şekil 8: Kümelenmiş columnstore dizinleri sorgu hızını ve veri sıkıştırmayı iyileştirir Microsoft SQL Server 2012 Parallel Data Warehouse 22 PDW, sıkıştırma oranlarını arttırmak ve sorgu tamamlama süresini azaltmak için sütun tabanlı veri düzenini kullanır. Örneğin: Sütunlar genellikle benzer verilere sahip oldukları için bu sütunlar üzerinde yüksek sıkıştırma oranları elde edilebilir. Daha yüksek sıkıştırma oranları, daha küçük bellek içi ve I/O ayak izi kullanarak sorgu performansını daha da artırır. Yüksek sıkıştırma oranları, daha küçük bellek içi ayak izi kullanarak sorgu performansını artırır. Bu da, SQL Server PDW’nin daha fazla sorgu ve veri operasyonunu bellek içerisinde yürütebilmesini ve sorgu performansını daha da arttırmasını sağlar. Çoğu sorgu bir tablo üzerinden sadece birkaç sütun seçer ve böylece fiziksel medya üzerinden gerçekleşen toplam I/O miktarı azalır. I/O miktarının azalmasının sebebi, columnstore tablolarının B-tree sayfaları yerine sütun segmentlerinde tutulması ve oradan alınmasıdır. Gelişmiş sorgu uygulama teknolojisi sayesinde toplu iş olarak adlandırılan sütun parçaları elverişli bir yöntemle işlenir ve CPU kullanımı azalır. Parçalanmış sütun parçalarını önlemek için bazı kümelenmiş columnstore dizini verileri, sıkıştırılıp columnstore’a taşınana kadar geçici olarak deltastore olarak adlandırılan bir rowstore tablosunda saklanır. Kümelenmiş columnstore dizini, doğru sorgu sonuçlarını elde etmek için hem columstore, hem de deltastore içerisinde çalışır. PDW’ye neden güvenebilirsiniz Verilerinizi güvenli ve erişilebilir bir biçimde saklayabilmek için PDW, tasarımı Windows Server 2012 Storage Spaces, Yük Devretme ve Hyper-V ile entegre olacak şekilde tasarlanmıştır. Microsoft SQL Server 2012 Parallel Data Warehouse 23 PDW’nin Donanım Yedekliliği Verilerinizi Güvende Tutar Donanım, her bir Hesaplama düğümünü, diğer Hesaplama düğümlerinin veya depolama bileşenlerinin performansını etkilemeden, kendi donanımı üzerinde verimli bir şekilde çalıştırmak üzere tasarlanmıştır. Her bir Hesaplama düğümü, iki Windows Storage Space disk dizisine bağlı olan bir Sanal makine üzerinde çalışır. Donanım da yedeklilik için tasarlanmıştır; bu sayede PDW’nin verilerinizi kaybetmeyeceğinden emin olabilirsiniz. PDW’nin kapasitesi, ölçeklendirme birimleri eklenerek arttırılır. Ölçeklendirme birimi içerisindeki her bir sunucuda bir Hesaplama düğümü çalışır ve bu işe adanmış 16 çift yansıtılmış disk üzerine yazar. Ölçeklendirme birimi başına düşen Hesaplama düğümü sayısı donanım satıcısına bağlıdır. Aşağıdaki şekilde bir ölçeklendirme birimi oluşturmak için 2 Hesaplama biriminin nasıl bir arada gruplandığı gösterilmektedir. Şekil 9: 2 Hesaplama düğümüne sahip bir ölçeklendirme birimi Windows Storage Spaces’ı kullanan her bir Hesaplama düğümü, ölçeklendirme birimindeki Windows Storage Spaces disk dizinlerindeki tüm diskleri okuma ve yazma hakkına sahiptir. Sunucu arıza yaparsa, Hesaplama düğümü, üzerindeki yükü raf üzerindeki bir başka sunucuya devreder. Bu sırada çalışmaya devam eder ve disklerine erişmek için ölçeklendirme birimindeki bir başka sunucu üzerinden InfiniBand ağını kullanır. Yüksek Süreklilik PDW’nin donanım ve yazılım mimarisi yüksek süreklilik elde edebilmek için birlikte oluşturulmuştur. Windows Server 2012 içerisinde yer alan özellikleri kullanarak PDW her bir düğümü sanal bir ortam içerisinde çalıştırabilir. Bu yetenek sayesinde düğümler teknik olarak herhangi bir sunucu üzerinde çalışabilir. PDW, bir sunucu arıza yaptığında, sanal bir makine üzerinde çalışan düğümü ayrı bir sunucuya devretmek için Windows Failover Clustering özelliğini kullanır. Windows Storage Spaces özelliğini kullanan her bir Hesaplama düğümü, ihtiyaç halinde ölçeklendirme birimi üzerindeki tüm diskleri okuyabilir ve üzerlerine yazabilir. Bir Hesaplama düğümü başka bir sunucuya devredilirse, ölçeklendirme birimi içerisindeki bir başka sunucuyla Microsoft SQL Server 2012 Parallel Data Warehouse 24 kuracağı InfiniBand bağlantısı sayesinde kendi verilerini ve disklerini çalıştırmaya ve onlara erişmeye devam edebilir. Şekil 10: Yedeklilik ve yüksek süreklilik tasarımı verilerinizi güvende ve çevrimiçi tutar. PDW'nin Kullanım ve Yönetim Kolaylığı “Yeni bir veri ambarı teknolojisini kullanmak için mevcut çalışanlarımızı kaybetmeyi ve yeni çalışanları işe almayı göze alamayız. Lütfen veri ambarlarını çalıştırmayı daha kolay bir hale getirin!” Microsoft SQL Server 2012 Parallel Data Warehouse 25 PDW’yi öğrenmek son derece kolaydır. SQL Server’dan SQL Server PDW’ye geçiş yapmak için yeni personel almaya gerek yoktur. TransactSQL’yi bilen veri tabanı yöneticileri bilgilerini kolayca PDW’de kullanabilir. İstemci sorguları Transact-SQL ile yazılır. MPP mimarisine uygun olması için bazı deyimler eklenebilir veya bazıları genişletilebilir. MPP’ye uygun olmadıklarından veya PDW bazı işlemleri arka planda zaten yapıyor olduğundan, bazı deyimlere ihtiyaç yoktur. SQL PDW’nin kurulumu kolaydır. Cihaz veri merkezinize geldiğinde donanım ve yazılım zaten kurulmuş ve yapılandırılmış durumdadır. PDW, sisteminizi kurmak için yapmanız gerekenleri içeren bir liste ile birlikte gönderilir ve içerisinde kurulumla ilgili işlemlerin çoğunu gerçekleştirecek olan Configuration Manager yer alır. Şekil 11: Yöneticiler cihazı Configuration Manager Aracı ile kurar PDW içerisinde izleme araçları mevcuttur. Kullanıcıların ve yöneticilerin cihazı takip etmek için kullanabileceği internet tabanlı bir Admin Console bulunmaktadır. Admin Console sorgular, iş yükleri ve yedekler hakkında bilgiler içerir. Ayrıca cihazın sağlığı ve depolama kaynakları hakkında da sizi bilgilendirir. Admin Console tarafından ortaya çıkarılan bilgiler, dinamik yönetim görünümlerini sorgulayan scriptler üzerinden de görüntülenebilir. Buna ek olarak PDW içerisinde, PDW’yi izlemek amacıyla System Center Operations Manager’ı (SCOM) kullanmanıza imkân verecek Yönetim Paketleri mevcuttur. Microsoft SQL Server 2012 Parallel Data Warehouse 26 Şekil 12: PDW içerisinde cihazı izlemek için internet tabanlı Admin Console yer alır. Veri Madenciliği ve Analiz Platformu “Verileri Hadoop içerisinde depolamak yetmez. Günümüzde kurumlar, karalarını daha fazla bilgiye dayanarak verebilmek için Hadoop verilerini nasıl hızlı ve sorunsuzca analiz edebileceklerini anlamalıdırlar. Günümüzde veri, birçok kaynakta üretilmektedir ve bu kaynaklardan bazıları ilişkisel veri tabanı yönetim sistemleri için uygun değildir. Örneğin bir kurum, büyük bir hızla oluşan tıklama verilerine, farklı şekillerde oluşan sosyal verilere, sensor verilerine veya uzaktan ölçülen veri akışlarına sahip olabilir. Büyük Veri sadece ilişkisel olmayan kaynaklardan gelen verilerin nasıl saklanacağı, yönetileceği ve analiz edileceği ile ilgili değil, aynı zamanda ticari bilgiler elde edebilmek için ilişkisel olmayan verileri bir kurumun ilişkisel verileri ile bir araya getirmekle de ilgilidir. Microsoft SQL Server 2012 Parallel Data Warehouse 27 Hadoop Entegrasyonu için PolyBase Günümüzde pek çok kurum ilişkisel olmayan verilerini depolama konusunda Hadoop’un kendilerine sunabileceği imkânları araştırmaktadır. Hadoop çok sayıda düğüm üzerinde ilişkisel olmayan verileri yöneten açık kaynaklı bir yazılımdır. Hadoop’a veri eklemek kolaydır, fakat ihtiyacınız olan verileri elde edip analiz etmek o kadar hızlı gerçekleşmez. Bu noktada genelde şöyle düşünülür: veriyi elde etmek uzun sürse bile, en azından veri sistem içerisinde bir yerde tutulmaktadır. Hadoop en çok toplu veri işlemleri için uygundur. PDW’deki PolyBase teknolojisi, Hadoop verilerinin analizi için çığır açan bir teknolojidir ve yepyeni veri analizi imkânlarını sunar. Hadoop’ta çok yavaş çalışan sorgular artık PDW’de hızla çalışabilir, veri madenciliği sorguları Hadoop ve PDW verilerini birleştirebilir, Hadoop verileri PDW içerisinde ilişkisel veriler olarak saklanabilir ve sorgu sonuçları tekrar Hadoop’ta saklanabilir. PDW’nin gücünden yararlanarak, artık Hadoop içerisinde MapReduce becerilerine sahip olmadan da derinlemesine veri madenciliği, raporlama ve analiz yapılabilir. PolyBase, ihtiyacınız olan Hadoop verilerini ihtiyacınız olduğu anda analiz edilmek üzere PDW’ye taşır. Sorunsuz bir şekilde hem Hadoop, hem de PDW verilerini aynı sorgu içerisinde seçebilirsiniz ve her iki kaynaktan gelen verileri birleştirebilirsiniz. PolyBase, bir sorgunun tamamlanması için verileri hızlı bir şekilde PDW’nin Hesaplama düğümleri ile Hadoop’un DataNode’ları arasında taşır. Şekil 13: PDW Hesaplama düğümleri ve HDFS DataNode’ları arasında paralel veri transferleri PDW, Hadoop üzerinde tutulan verileri göstermek için harici tablolar kullanır. Harici tablo oluşturulduktan sonra, tablo, aynı bir PDW tablosunda olduğu gibi bir SELECT ifadesi içerisinde kullanılabilir. Aşağıdaki örnekte, DimCustomer_Hadoop_Export adında harici bir tablo oluşturuluyor ve PDS içerisindeki DimCustomer tablosunda yer alan veriler, Hadoop Kümesindeki DimCustomerExport.txt belgesine transfer ediliyor. Microsoft SQL Server 2012 Parallel Data Warehouse 28 CREATE EXTERNAL TABLE DimCustomer_Hadoop_Export WITH ( LOCATION = ˈhdfs://10.192.63.147:8020/DemoDb/DimCustomerExport.t xt, FORMAT_OPTIONS ( FIELD_TERMINATOR = ˈ|ˈ) ) AS SELECT * FROM DimCustomer; Verileri transfer etmeden harici bir tablo oluşturmak için kullanılacak sözdizimi, bir PDW tablosu oluşturulurken kullanılana benzer. Bu örnekte ClickStream adında bir harici tablo oluşturuluyor. Tablo, Hadoop üzerinde employee.txt olarak adlandırılan metin belgesi içerisindeki verileri gösteriyor. CREATE EXTERNAL TABLE ClickStream ( url varchar(50), event_date date, user_IP varchar(50) ) WITH ( LOCATION = 'hdfs://10.192.63.147:8020/DemoDb/employee.txt', FORMAT_OPTIONS ( FIELD_TERMINATOR = '|'), DATE_FORMAT = ꞌMM/dd/yyyyꞌ ) ) [;] Bu harici tabloyu PDW içerisinde görüntülemek veya veriler üzerinde işlem yapmak için tek yapmanız gereken herhangi bir başka tabloda yapacağınız gibi SELECT işlemini kullanmaktadır. SELECT * FROM ClickStream; Bir sorunu çözmek için Hadoop verileri ile PDW verilerini bir araya getirebilirsiniz. Bu konuda bir örnek izleyin: Birleştirerek Elde Edilen Bilgi: SQL Server 2012 Parallel Data Warehouse Demo - PolyBase Video (http://go.microsoft.com/fwlink/?LinkId=320541). PDW’nin İş Zekâsı (BI) araçlarıyla derinlemesine entegrasyonu, PDW’yi veri madenciliği ve analiz çözümleri için kapsamlı bir platforma dönüştürmektedir. PDW, Microsoft İş Zekâsı Araçlarıyla (Reporting Services, Analysis Services, PowerPivot for Excel, PowerView) entegre olur. Ayrıca Business Objects, Cognos, SAP Data Integrator, Tableau, MicroStrategy, QlikView, Oracle Business Intelligence ve TIBCO Spotfire gibi sayıları gittikçe artan çözümle de entegre olmaktadır. Microsoft SQL Server 2012 Parallel Data Warehouse 29 İş Zekâsı Entegrasyonu İş Zekası araçları, standart SQL Server bağlantı araçlarını, SQL Server Native Client veya .NET Data Provider for SQL Server’ı kullanarak PDW’ye bağlanır. Tüm bu iş zekâsı araçlarının PDW veri tabanına sanki standart bir SQL Server 2012 veri tabanıymışçasına erişebiliyor oluşu, BT çözümlerini PDW üzerinde hızla güncellemenize veya değiştirmenize imkân verir. SQL Server 2012 PDW’de yeni bir özellik olarak, PDW’yi SQL Server Analysis Services (SSAS) ile çok boyutlu VEYA tablolu modeller oluşturmak için yüksek performanslı bir ilişkisel veri kaynağı olarak kullanabilirsiniz. Örneğin şunları yapabilirsiniz: Özet Bir SQL Server PDW veri kaynağındaki tablolu bir model üzerinde gerçek zamanlı sorgular gerçekleştirmek için DirectQuery’yi kullanmak. SQL Server PDW tabloları üzerinde kümelenmiş columnstore dizinlerini kullanarak ROLAP sorgu sürelerini kısaltmak. SSAS’ın yeni özelliklerini kullanmak. Örneğin PDW tablolarında farklı sayma işlemlerini çalıştırmak için EnableRolapDistinctCountOnDataSource’u kullanmak. Çok boyutlu veya tablo modellerinde kullanılmak üzere Hadoop verilerini birleştirmek için PDW’yi bir veri ambarı olarak kullanmak. Microsoft SQL Server 2012 Parallel Data Warehouse yeni nesil verilerin getirdiği zorlukların üstesinden gelebilecek güçlü ve yenilikçi bir çözümdür. Veri ambarı iş yüklerini yönetmek için tek bir cihazda birkaç terabayttan altı petabaytın üzerinde veriye ölçeklenebilen bir platform sunar. Bu sayede daha doğru ve daha hızlı ticari kararlar almanıza imkân verir. Sorgular, geleneksel ilişkisel veri tabanı sistemlerinden ortalama 50 kat daha hızlı bir şekilde gerçekleşir. Çok daha yüksek veri sıkıştırma oranları sayesinde daha çok veri daha düşük maliyetlere etkin bir şekilde saklanabilir. PDW, Microsoft BI araçlarıyla ve Microsoft dışındaki diğer önemli araçlarla derinlemesine entegre olarak, analiz gerçekleştirmek için alışkın olduğunuz iş zekâsı araçlarını kolayca kullanmanızı sağlar. PolyBase teknolojisi, Transact-SQL kullanarak, yeni beceriler öğrenmenize gerek kalmadan, Hadoop verilerini sorgulamanıza ve ilişkisel verilerinizle birleştirmenize imkân verir. Yönetim masrafları çok düşüktür ve SQL Server veri tabanı yöneticileri için öğrenmesi kolaydır. Bu sayede PDW’nin yönetimi için mevcut veri tabanı yöneticilerinizi kullanabilirsiniz. PDW’nin çığır açan sorgu performansı ve ölçeklenebilirliği, PDW’nin özellikle veri ambarı iş yükleri için oluşturulmuş olmasından kaynaklanır. PDW’nin donanım ve yazılımı, hızlı paralel işlem, dağıtılmış veri depolama, donanım yedekliliği, ölçeklendirilebilir kapasite ve yüksek süreklilik için tasarlanmıştır. Tüm bu özellikler sayesinde PDW’yi verileriniz ile ilişkili artan depolama ve analiz ihtiyaçlarınızı karşılamak için kullanabilirsiniz. Bu yüzden SQL Server’dan SQL Server PDW’ye geçmek, artan veri Microsoft SQL Server 2012 Parallel Data Warehouse 30 ihtiyaçlarınızı yönetebilmek ve daha hızlı, daha doğru ticari kararlar verebilmek açısından önemli bir adımdır. PDW, buna imkân sunacak karmaşık analizleri gerçekleştirmenizi sağlar. Daha fazla bilgi için: SQL Server 2012 Parallel Data http://www.microsoft.com/PDW/ Warehouse internet sitesi: Microsoft veri ambarı internet sitesi: http://www.microsoft.com/enus/sqlserver/solutions-technologies/data-warehousing.aspx Bu makale size yardımcı oldu mu? Lütfen bize görüşlerinizi bildirin. 1 (zayıf) ila 5 (mükemmel) arasında bir not verin ve verdiğiniz notun sebebini açıklayın. Örneğin: Yüksek not verdiyseniz, nedenini açıklayın: örneğin ilgili örnekler, yararlı ekran görüntüleri, anlatımdaki açıklık veya başka bir sebepten mi verdiniz? Zayıf not verdiyseniz, nedenini açıklayın: kötü örnekler, ekran görüntülerinin net olmaması veya yazım dilinin açıkça anlaşılmamasından dolayı mı verdiniz? Yapacağınız geri dönüş, yayınlayacağımız diğer teknik makalelerin kalitesini artıracaktır. Lütfen düşüncelerinizi paylaşın. Yazarlar Hakkında Barbara Kess, Microsoft’ta veri ambarı konusunda uzman ve SQL Server PDW içeriği konusundaki ana yazarımızdır. Dan Kogan Microsoft’ta Veritabanı Cihazlarının pazarlamasından ve SQL Server PDW ürününden sorumludur. Teşekkürler Harika bir ürün geliştirmek ve pazara sürmek için kendilerini adamış olan SQL Server PDW mühendislik, danışmanlık ve satış ekiplerine özellikle teşekkür ederiz. Bu makalenin büyük bir kısmının dayandığı PDW ürün belgeleri için yorulmadan çalıştılar. Her gün müşterilere yardım ederek elde ettikleri deneyimlerle SQL Server PDW konusundaki en iyi uygulamaları geliştirmiş olan SQL Server Müşteri Danışmanlığı Ekibinden Murshed Zaman ve John Hoang’a teşekkür ederiz. PDW konusundaki büyük deneyimleri bu makaleyi zenginleştirdi Henk van der Valk, SQL Server PDW ile ilgilenen müşterilerle çalışan bir Teknik Çözüm Görevlisidir. Bizlere müşterilerimizin öğrenmek istedikleri bilgileri daha iyi açıklamamız konusunda yardımcı oldu. Microsoft içerik yazarı Rick Byham’a da makaleyi incelediği ve bize yararlı bilgiler sunduğu için teşekkür ederiz. Microsoft SQL Server 2012 Parallel Data Warehouse 31