亚洲av狠狠爱一区二区三区,午夜久久久久久禁播电影,天堂8资源在线中文www,香港三级日本三级a视频,无码av免费精品一区二区三区

中網(wǎng)首頁-資訊中心-商業(yè)-內(nèi)幕-商評-財經(jīng)-股市-精英-科技-互聯(lián)網(wǎng)-創(chuàng)業(yè)-汽車-企業(yè)-專題-娛樂-社會-圖片-財經(jīng)圈

主頁>商業(yè)報道>企業(yè)研究>品牌公關(guān)>

揭秘Microsoft Bing與Google搜索背后的故事

來源:互聯(lián)網(wǎng)的那些事 時間:2012-03-26 10:28:16

  Google搜索引擎已經(jīng)贏得全球范圍的贊譽,而這一切都要歸功于Google開創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬臺普通服務(wù)器。MapReduce的成功也直接推動了Hadoop的發(fā)展,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時代的浪潮他們必須有進一步的舉措。

  

\

  HarryShum已經(jīng)在Microsoft研究院工作了11年,現(xiàn)在他負責(zé)研發(fā)MicrosoftBing搜索引擎,以對抗Google搜索。(圖片來自Microsoft)

  在2010年,Google搜索引擎發(fā)生了重大變革。Google將其搜索遷移到新的軟件平臺,他們稱之為“Caffeine”。Caffeine是Google出自自身的設(shè)計,Caffeine使Google能夠更迅速的添加新的鏈接(包括新聞報道以及博客文章等)到自身大規(guī)模的網(wǎng)站索引系統(tǒng)中,相比于以往的系統(tǒng),新系統(tǒng)可提供“50%新生”的搜索結(jié)果。

  而這一切都要歸功于Google開創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬臺普通服務(wù)器。MapReduce的成功也直接推動了Hadoop的發(fā)展。現(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時代的浪潮他們必須有進一步的舉措。

  Google在基于Web的分布式計算系統(tǒng)領(lǐng)域已經(jīng)贏得了贊譽。而MicrosoftBing搜索引擎的負責(zé)人HarryShum認為Microsoft雖然沒有“Caffeine”的支持,但Bing搜索(利用數(shù)以萬計的服務(wù)器軟件平臺處理數(shù)據(jù))的能力絲毫不輸給Google。GoogleCaffeine的優(yōu)勢在于快速抓取、編制索引和服務(wù)器文檔。而Bing在這方面也是非常出色的。但這一切都需要基礎(chǔ)設(shè)施的支持。

  

\

  HarryShum于2007年加入Bing團隊,HarryShum已經(jīng)在Microsoft研究院工作了11年。HarryShum的目標(biāo)就是讓Bing在搜索引擎領(lǐng)域技術(shù)趕上Google。在過去五年中,Google仍舊是全球最出色的搜索引擎,有人預(yù)計其市場占有率可能高達85%或90%。但HarryShum深信Bing終將在技術(shù)水平上趕超Google。多年來,我們一直在努力完善,在經(jīng)過持之以恒的努力后,Bing的搜索質(zhì)量已經(jīng)接近Google的水平。HarryShum說到。

  毫無疑問,Google不會贊同HarryShum的說法,Google的工程師認為Caffeine是非常重要的。Caffeine索引覆蓋1億GB數(shù)據(jù)。Caffeine可在幾秒或幾分鐘的時間從新聞網(wǎng)站或博客中添加內(nèi)容。

  HarryShum認為Bing索引系統(tǒng)與Caffeine不同。他表示雖然Google聲稱他們一些重大的技術(shù)是最新的。但Caffeine的一些功能Bing已經(jīng)在內(nèi)部運行了。但同時我們也要構(gòu)建新的技術(shù),以完善我們的系統(tǒng),我們也在這樣做著。

  當(dāng)討論軟件時,無論是Google還是Microsoft都避而不談支撐他們搜索引擎和其他Web服務(wù)的技術(shù)。但HarryShum表示驅(qū)動Bing的專有軟件平臺被稱之為Cosmos。這在Microsoft研究院發(fā)布研究論文有所提及。Cosmos類似于Google構(gòu)建與MapReduce之上的GFS(GoogleFileSystem)。HarryShum同時表示Microsoft正在設(shè)法完善并擴大Cosmos平臺,以便使之能夠幫助Bing搜索引擎達到實時收錄的地步。

  

\

  在Google采用Caffeine之前,Google使用MapReduce和分布式文件系統(tǒng)(如GFS)來構(gòu)建搜索索引(從已知的Web頁面索引中)。MapReduce是一種處理大型及超大型數(shù)據(jù)集并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言里借來的,同時也包含了從矢量編程語言里借來的特性。MapReduce將整個任務(wù)分解成成百甚至上千塊小任務(wù),然后發(fā)送到計算機集群中。

  Google的網(wǎng)絡(luò)爬蟲會從整個網(wǎng)絡(luò)中抓取相關(guān)的文件信息。然后將信息分發(fā)到Google全球配置了GFS的網(wǎng)絡(luò)服務(wù)器中。而MapReduce負責(zé)在服務(wù)器協(xié)調(diào)數(shù)據(jù)處理的任務(wù),以便可以將處理好的所有數(shù)據(jù)分配到人們實際搜索的頁面索引中。在Google剛剛推出搜索引擎時,MapReduce每個月都會建立新的索引。后來,Google改善了系統(tǒng),并逐步減少re-crunch索引所需的時間。但當(dāng)需求達到新的高度時,就需要動態(tài)的方式來更新索引。于是Google進入了Caffeine時代。

  Goolge的技術(shù)使得系統(tǒng)可以很快的抓取頁面并添加到索引之中。在過去,因為在每次更新索引要分析整個Web,這導(dǎo)致Google需要處理大量的索引頁(數(shù)十億的文檔)。但自從Google采用Caffeine后,Google只需從Web中分析其中的一小部分,所以Google可以持續(xù)不斷的更新索引。

  在本質(zhì)上Caffeine丟棄MapReduce轉(zhuǎn)而將索引放置在由Google開發(fā)的分布式數(shù)據(jù)庫BigTable上。作為Google繼GFS和MapReduce兩項創(chuàng)新后的又一項創(chuàng)新,其在設(shè)計用來針對海量數(shù)據(jù)處理情形下的管理結(jié)構(gòu)型數(shù)據(jù)方面具有巨大的優(yōu)勢。這種海量數(shù)據(jù)可以定義為在云計算平臺中數(shù)千臺普通服務(wù)器上PB級的數(shù)據(jù)。Bigtable的出現(xiàn)也徹底改變了Google的索引機制。Google正在構(gòu)建新版本的GFS,其被稱為GFS2,但在Google內(nèi)部GFS2被稱為Colossus。

  HortonworksCEOBaldeschwieler認為Google將Caffeine用于搜索中是非常令人信服的創(chuàng)意。當(dāng)Baldeschwieler還在Yahoo工作時,公司曾考慮過這樣的平臺,但因為昂貴的成本最終決心走Hadoop路線。

  Microsoft的HarryShum表示相對于GoogleCaffeine,Microsoft選擇了不同的道路和發(fā)展方向。雖然他并沒有透露過多的細節(jié),但HarryShum表示Microsoft目前基于Cosmos平臺是更多并行的數(shù)據(jù)庫。

  

\

  Dryad在微軟軟體系結(jié)構(gòu)中的位置

  去年,微軟曾公布了建立與Cosmos之上的Dryad框架,這個類似MapReduce的框架一直驅(qū)動著Bing。但目前無法得知Dryad在Bing搜索引擎中占據(jù)怎樣的角色。其實Dryad也并非微軟的新產(chǎn)品,Dryad和DryadLINQ早在微軟收購Powerset之前就已經(jīng)存在。微軟于2007年首度揭曉了關(guān)于技術(shù)的研究成果,并于2009年向?qū)W術(shù)界推出了非商業(yè)版Dryad和DryadLINQ。但與MapReduce不同的是,Dryad是針對運行WindowsHPCServer的集群計算設(shè)計的,而非Linux。

作者:李智  責(zé)任編輯:劉斌
要了解更多,可繼續(xù)查閱相關(guān)資訊:
最新評論共有 0 位網(wǎng)友發(fā)表了評論
發(fā)表評論
評論內(nèi)容:不能超過250字,需審核,請自覺遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī)。
用戶名: 密碼:
匿名?
注冊

關(guān)于我們 | 保護隱私權(quán) | 網(wǎng)站聲明 | 投稿辦法 | 廣告服務(wù) | 聯(lián)系我們 | 網(wǎng)站導(dǎo)航 | 友情鏈接 | 不良信息舉報:yunying#cnwnews.com(將#換成@即可)
京ICP備05004402號-1