Irchiver - Araştırma Amaçlı Bilgi Toplayıcı

0
bahadirkandemir
irc.freenode.net'te #fazlamesai'de sohbet ederken, network admini lilo tarafından gönderilen bir global mesaj dikkatimi çekti.

Helsinki Bilgi Teknolojileri Enstitüsü'nde Kompleks Sistem Hesaplamaları Grubu'ndan bir araştırmacı, Ville H. Tuulos, Freenode networkünü bir araştırma için kullanmak istediğini belirtmiş. İlgilenenlerin #searchengine kanalına gelmeleri istendi. Kanala girenlerin sayısı çok fazlaydı, girişler yavaşladığında proje yöneticisi Ville H. Tuulos sunuma başladı...
Google benzeri, IRC için bir arama motoru hayal edin. Google benzeri bir yaklaşımın problemi, web üzerindeki link bilgisine ağırca bağlı olması (PageRank). Ve tabii ki bu sorun IRC'de yok. Bundan başka, IRC webe göre çok daha dinamiktir, tartışma konuları her zaman değişir, vs. Böylece, kelime aramaları yeterli olmaz.

Yaptığımız şey şu, elimizde doğal dildeki konuları yakalayan çeşitli istatistiksel modeller var. Bu konularla ilgiliyseniz, MPCA ve ICA kelimeleri size birşeyler anlatmalıdır. Her istatistiksel çalışmalarda olduğu gibi, büyük miktarda veriye ihtiyaç duyar, ve biz *gerçekten* büyük miktardan bahsediyoruz, 100MB gibi değil.

Şu anda başlangıç için 1.5 terabyte'lık bir disk alanına sahip bir SAN sistemi sipariş ettik. İşte miktar bu kadar. Küçük bir etki alanındaki yapay verilerle çalışamayız. Gerçek yaşam verileriyle çalışmak zorundayız, ve bu yeterli veriye ulaşmamızın tek yolu.

İkinci konu ise, tahmin ettiğiniz gibi, modellerimiz değersiz bilgilerle başarısızlığa uğrayabilir. Birçok network ve kanaldaki tartışmalar gürültüden ibarettir. Freenode bu yönde mükemmel. Yeterli insan var ve tartışmalar gürültü değil.

Şöyle bir sisteme sahip olmak istiyoruz:
a) Bir sorgu yazacaksınız, örneğin linux ile ilgili bir soru ve sistem bu tür tartışmanın nerede yapıldığını söyleyecek.
b) Sistem tartışmaların gerçek zamanlı evrimini gösterecek
c) Birden fazla networkte çalışırken, konuların dünyanın her tarafına nasıl yayıldığını göreceksiniz.
d) İddia ediyorum, bu tartışmaları arttıracak: kişilere göre konuları göreceksiniz. Mesela bir kimsenin uzmanlık alanları nedir, vs.

Eminim olayı anladınız ve gerisini hayal edersiniz.

Yaptığımız herşey açık kaynaklı olacak. GPL'li olacak.


Sunum sonrası lilo soruları sormaya başladı:

lilo: Tüm kanallar loglanacak mı?
tuulos: Burada böyle bir sisteme sahip olmak isteyip istemeyeceğimiz size kalmış. Ama kısa cevap: hayır. Tabii ki her zaman gizlilik hakkınızı koruyabileceksiniz. Bir kamu hizmetinden bahsediyoruz, casusluk aracından değil.
lilo: Kanallar sisteme dahil olup ayrılabilecek mi?
tuulos: Sistem her zaman gizliliğe saygılı olmalı.
lilo: Teknik olarak kullanıcıların sistemden ayrılması uygun mu? Bu veri toplamada sorun yaratmaz mı?
tuulos: Evet, tabii ki. IRC trafiğini düşünün. grep -v tuulos diyebilirsiniz.
lilo: Hostlar tutulacak mı? Yoksa sadece nickler mi tutulacak?
tuulos: Bireysel olarak kullanıcılarla ilgilenmiyoruz. Kişisel şeyleri kayıt etmeyeceğiz, nickler dışında.
lilo: SPAM'ciler sistemi yanıltmanın bir yolunu bulabilir, bunu nasıl engelleyeceksiniz?
tuulos: Bu bir silahlanma yarışı. Sorun şu ki, sistem ne kadar büyükse kandırmak o kadar zordur. Örneğin PageRank'i yanıltmak önemsizdir.
lilo: Başından sonuna kadar sistemin üzerinde çalışacak mısınız?
tuulos: Zorundayız. Başka türlü sistemi kullanılabilir kılamayız.
lilo: Gizlilik bildirgesi olacak mı?
tuulos: Hayır, burada bunu tartışmak için bulunuyoruz (:

Ayrıntlı bilgi için http://cosco.hiit.fi/irchiver/ adresini ziyaret edebilirsiniz.

İlgili Yazılar

Proje Yönetiminde Türkçe Paylaşım Merkezi

anonim

Proje Yönetimini konusunda Türkçe kaynak sıkıntısının önüne geçmek, öğrencisinden uzmanına dek bir paylaşım ortamı hazırlamak amacı ile açılan yeni bir site: PMboard.org

Microsoft IIS pazar payını %5 arttırdı bu ay!!!

sundance

Evet yanlış duymadınız, yıllardır Internet web sunucuları üzerine aylık araştırmalarını yayınlayan www.netcraft.com bu ayki araştırmasında 31,299,592 web sunucusunu inceledi.
Sonuçlar, Microsoft IIS ile sunulan web sitelerinde bir önceki aya göre %5`lik bir artış olduğu. İşin ilginç yanı bu %5`lik kayıp daha önce Solaris üstünde hizmet veren NameZero`nun Windows 2000`e geçmesi ve Network Solutions`ın Solaris ağırlıklı Digex`den Windows ağırlıklı Interland`e geçmesi sonucu oldu.

Neyse merak edenler için dakika ve skor ;)
Apache %58.73 - Microsoft %27.88

Web tasarımcıları için sunucu taraflı optimizasyon

mow

Bir web projesinde CSS/XHTML/Javascript ve benzeri işleri siz yapıyorsanız burada anlatılanlar tam size göre. Evet siz doğrudan ne betik dili ile yazılmış bölümlere ne de sunucu ayar dosyalarına ulaşmıyor ve onları kullanmıyor olsanızda sunucu taraflı optimizasyonda sizlerin doğrudan katkısı sandığınızın aksine çok büyük.

Acaba Pirate Bay hangi ülkeyi SATIN ALACAK?

sundance

Alexa'nın listesinde 362. olan dünyanın en büyük Torrent sitesi Pirate Bay polis müdahalelesinden kurtulmak için bir ÜLKE satın almaya karar verdi!

2004 yılında İsveç'de kurulan Pirate Bay, kısa zamanda yoğun bir ilgi toplaması, torrent meraklılarının gözdesi olmasının yanısıra, Fransa, Belçika, İtalya, Avusturya ve Amerika'da kurulan telif hakları karşıtı Korsan Partileri'nin de ilkinin kurulmasına zemin hazırlamıştı.

Neden yemek siparişimi internetten vereyim???

parsifal

Çoğumuzun başına gelmiştir... Genelde pizza siparişi için telefon edersiniz. Fakat adresiniz sipariş verdiğiniz yere uzaktır veya sipariş süresi içinde gelmez, falan filan...

Buyrun size Yemek Sepeti

Yaşadığım örneği anlatayım gerisini siz anlayın. Beşiktaş'ta SUBWAY yok. Verdim malum siteden siparişi, aradılar onayladım. 45 dakika içinde dükkandaki ile aynı fiyata kapımdaydı. Dedikleri gibi: "Tüm siparişleriniz telefonda vereceğinizden çok daha doğru gelsin. (Artık "LAHana dolma istedim LAHmacun geldi." devri kapandı.)"

"Eğer müşteriniz köşebaşından alabildiği bir ürünü; sizden, 3 gün sonra ve gönderim masrafını da ödeyerek alıyorsa, sizin iş modeliniz hiçbir şeyi geliştirmiyor demektir."
Tod Francis, Trinity Ventures