Veri kazıma
Makale serilerinden |
Veri kazıma bir bilgisayar programı, başka bir programdan gelen insanlar tarafından okunabilir olan çıkış veri ayıklayan bir tekniktir.
Açıklama
[değiştir | kaynağı değiştir]Normalde, programlar arasında veri transferi bilgisayarlar değil, insanlar tarafından otomatik işlenmesi için uygun veri yapılarını kullanılarak gerçekleştirilir. Böyle bir kavşak biçimleri ve protokolleri genellikle rijit kolayca çözümlenir, iyi belgelenmiş, yapılandırılmış ve en az belirsizlik devam edilmektedir . Çoğu zaman, bu yayınlar tüm insan tarafından okunabilir değil.[1]
Böylece, düzenli ayrıştırma gelen kazıma verileri ayıran unsur kazınarak olan çıkış yerine başka bir programa girdi olarak daha bir son kullanıcıya ekranda yönelik olduğu ve bu nedenle genellikle belgelenmiş ne uygun ayrıştırma yapılandırılmış ne olduğunu. Veriler genellikle ikili veri (genellikle görüntü veya multimedya veri ), görüntü biçimlendirme, gereksiz etiketler, gereksiz yorum veya ilgisiz ya da otomatik işleme engelleyen diğer bilgileri görmezden içerir kazıma.
Veri kazıma en sık mevcut donanım ile uyumlu olan başka hiçbir mekanizmaya sahip bir eski sistem ya arabirime yapılır ya da daha uygun bir API sağlamaz bir üçüncü taraf sisteme arayüz. İkinci durumda, üçüncü taraf sistemi operatör genellikle ekran nedeniyle böyle yüksek sistem yükü, reklam gelir kaybı veya bilgi içeriğinin kontrol kaybı gibi nedenlerle, istenmeyen kazıma görürsünüz.
Veri kazıma genellikle genellikle sadece veri değişimi için başka bir mekanizma mevcut bir " son çare " olarak kullanılan bir ad hoc, inelegant tekniği, kabul edilir. Kenara yüksek programlama ve işleme yükü gelen, insani tüketim amaçlı çıkış görüntüler sık sık sık yapısını değiştirmek. İnsanlar kolayca başa çıkabilir, ancak saçma bildirebilir bir bilgisayar programı, belirli bir formatta veri okumak veya belirli bir yerden ve geçerliliği için onun sonuçlarını nasıl denetleneceği hiçbir bilgi ile söylendi oylandı.
Ekran kazıma
[değiştir | kaynağı değiştir]Ekran kazıma normalde yerine Web kazıma gibi verileri ayrıştırma, bir kaynaktan gelen görsel verilerin programatik koleksiyonu ile ilişkilidir. Başlangıçta, ekran bilgisayar ekranı terminalin ekrandan metin veri okuma uygulamasına atıfta kazıma. Bu işlem genellikle, yardımcı bağlantı noktası üzerinden veya başka bir giriş noktasına, bir bilgisayar sisteminin, terminal çıkış bağlantı noktasını terminalin okuma hafızası ile yapılmıştır. Terimi ekran kazıma de yaygın veri iki yönlü değişimi ifade etmek için kullanılır. Kontrol programı kullanıcı arayüzü gezinirken ya da kontrol programı anlamına bir arabirim veri giriyor daha karmaşık senaryolar insan tarafından kullanılmak üzere burada basit vakalar olabilir.
Bilgisayar veri işleme şafak - klasik bir ekran kazıyıcı somut bir örnek olarak, 1960'ların varsayımsal eski sistem kalma düşünün. O dönemin kullanıcı arabirimleri Bilgisayar, genellikle sanal tele yazıcılar çok daha fazla değildi, sadece metin tabanlı aptal terminalleri idi (bu sistemler çeşitli nedenlerle, hala kullanımda bugün). Daha modern sistemlere böyle bir sistem arayüzü arzusu yaygındır. Bir sağlam bir çözüm genellikle kaynak kodu, sistem dokümantasyonu, API'ler ya da 50 yaşındaki bir bilgisayar sistemi deneyimi olan programcılar olarak artık şeyler, gerektirecektir. Bu gibi durumlarda, tek çözümdür bir terminalde bir kullanıcı olmak "miş gibi" ekran kazıyıcı yazmak olabilir. Ekran kazıyıcı, istenen veri ayıklamak, eski kullanıcı arayüzü gezinmek için gerekli tuş vuruşlarını, süreç ortaya çıkan görüntü çıkış taklit, Telnet üzerinden eski sisteme bağlanmak ve modern bir sisteme geçmek olabilir. Örneğin değişim kontrolü, güvenlik, kullanıcı yönetimi, veri koruma, operasyonel denetim, yük dengeleme ve kuyruk yönetimi, vb - - yönetişim ve büyük bir kuruluş tarafından gerekli kontrol sağlayan bir platform üzerine inşa edilen bu tip (A sofistike ve esnek uygulama, olabilir Robotik süreç otomasyonu yazılımının bir örneği olduğu söylenebilir.)
1980'lerde, Reuters, Telerate ve Quotron finansal veri sağlayıcıları, bir insan okuyucu yönelik 24 × 80 biçiminde veri görüntülenir. Bu veriler, özellikle yatırım bankaları, kullanıcıları yakalamak ve verileri tekrar anahtarlama olmadan ticaret kararları için hesaplamalar içine dahil edilmesi için sayısal veri olarak bu karakter verileri dönüştürmek için uygulama yazdı. Sonuçlar kağıt parçalayıcı geçtik hayal olabilir çünkü özellikle İngiltere'de bu uygulama için ortak terim, sayfa parçalama oldu. İçten Reuters VAX / VMS üzerinde gelişmiş bir bilgisayar sistemi çalıştıran, bu dönüşüm süreci için ' logicized ' terimini kullanılan Logicize denilenr.[2]
Daha modern ekran kazıma teknikleri ekrandan bitmap verilerini yakalama ve bir OCR motoru ile çalışan ya da bazı özel otomatik test sistemleri için, beklenen sonuçlara karşı ekranın bitmap verilerini eşleşen içerir. Bu programlı altta yatan programlama nesnelerine başvuruları alarak grafik kontrolleri sorgulama ile GUI uygulamaları durumunda kombine edilebilir. Web kazıma
Web kazıma
[değiştir | kaynağı değiştir]Web sayfaları, metin tabanlı mark-up dilleri ( HTML ve XHTML ) kullanılarak inşa ve sık sık metin biçiminde yararlı veri zenginliği içerirler. Ancak, çoğu web sayfaları, insan son kullanıcılar için değil, otomatik kullanım kolaylığı için tasarlanmıştır. Bu nedenle, web içeriği kazımak araç kitleri oluşturulmuştur. Bir web kazıyıcı bir web sitesine veri ayıklamak için bir API . Amazon AWS ve Google gibi şirketler, son kullanıcılara ücretsiz olarak mevcut araçları, hizmet ve kamu veri kazıma web sağlar. Web kazıma yeni formları veri web sunucularından beslemeleri dinleme içerir . Örneğin, JSON yaygın istemci ve web sunucusu arasında bir taşıma depolama mekanizması olarak kullanılır.
Son zamanlarda, şirketler otomatik olarak yararlı bilgiler elde etmek için bir web sayfasını görüntülerken oluşur insan işleme simülasyonu için DOM ayrıştırma, bilgisayar görme ve doğal dil işleme teknikleri kullanarak güveniyor web kazıma sistemleri geliştirdik.[3][4]
Rapor madencilik
[değiştir | kaynağı değiştir]Rapor madencilik insan okunabilir bilgisayar raporları veri çıkarma olduğunu. Geleneksel veri çekme bir çalışma kaynağı sistemi, uygun bağlantı standartları veya bir API ve genellikle karmaşık sorgulama bağlantısı gerektirir. Kaynak sisteminin standart raporlama seçenekleri kullanarak, bir biriktirme dosyası yerine bir yazıcıya çıktı yönlendirerek, statik raporlar rapor madencilik yoluyla çevrimdışı analiz için uygun oluşturulabilir. Bu yaklaşım, iş saatlerinde yoğun CPU kullanımını önlemek ERP müşterileri için son kullanıcı lisans maliyetlerini en aza indirebilirsiniz ve çok hızlı prototip ve özel raporların geliştirilmesi sunabilir. Veri kazıma ve web dinamik çıkışı ile etkileşim içeren kazıma Oysa, rapor madencilik gibi HTML, PDF veya metin olarak, bir insan okunabilir formatta dosyalardan veri ayıklanması içerir. Bunlar kolayca bir yazıcıya veri besleme durdurarak hemen her sistemden elde edilebilir. Bu yaklaşım, kaynak sistemine bir API programlamak gerek kalmadan veriyi elde etmek hızlı ve basit bir yol sağlayabilir.
Ayrıca bakınız
[değiştir | kaynağı değiştir]- Data munging
- Information extraction
- Importer (computing)
- Açık veri
- Web kazıma
- Mashup (web application hybrid)
- Metadata
- Comparison of feed aggregators
Kaynakça
[değiştir | kaynağı değiştir]- ^ Custom web crawlers and data scraping. Bot Gurus. 14 Ağustos 2014 tarihinde kaynağından arşivlendi. Erişim tarihi: 9 Ocak 2016.
- ^ Contributors Fret About Reuters’ Plan To Switch From Monitor Network To IDN 13 Mart 2016 tarihinde Wayback Machine sitesinde arşivlendi., FX Week, 02 Nov 1990
- ^ "Diffbot aims to make it easier for apps to read Web pages the way humans do". MIT Technology Review. 1 Şubat 2015 tarihinde kaynağından arşivlendi. Erişim tarihi: 1 Aralık 2014.
- ^ "This Simple Data-Scraping Tool Could Change How Apps Are Made". WIRED. 13 Ocak 2016 tarihinde kaynağından arşivlendi. Erişim tarihi: 8 Mayıs 2015.
Konuyla ilgili yayınlar
[değiştir | kaynağı değiştir]- Hemenway, Kevin and Calishain, Tara. Spidering Hacks. Cambridge, Massachusetts: O'Reilly, 2003. ISBN 0-596-00577-6.