亚洲av狠狠爱一区二区三区,午夜久久久久久禁播电影,天堂8资源在线中文www,香港三级日本三级a视频,无码av免费精品一区二区三区

中網(wǎng)首頁-資訊中心-商業(yè)-內(nèi)幕-商評(píng)-財(cái)經(jīng)-股市-精英-科技-互聯(lián)網(wǎng)-創(chuàng)業(yè)-汽車-企業(yè)-專題-娛樂-社會(huì)-圖片-財(cái)經(jīng)圈

主頁>商業(yè)報(bào)道>企業(yè)研究>品牌公關(guān)>

揭秘Microsoft Bing與Google搜索背后的故事

來源:互聯(lián)網(wǎng)的那些事 時(shí)間:2012-03-26 10:28:16

  Google搜索引擎已經(jīng)贏得全球范圍的贊譽(yù),而這一切都要?dú)w功于Google開創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺(tái)支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬臺(tái)普通服務(wù)器。MapReduce的成功也直接推動(dòng)了Hadoop的發(fā)展,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時(shí)代的浪潮他們必須有進(jìn)一步的舉措。

  

\

  HarryShum已經(jīng)在Microsoft研究院工作了11年,現(xiàn)在他負(fù)責(zé)研發(fā)MicrosoftBing搜索引擎,以對(duì)抗Google搜索。(圖片來自Microsoft)

  在2010年,Google搜索引擎發(fā)生了重大變革。Google將其搜索遷移到新的軟件平臺(tái),他們稱之為“Caffeine”。Caffeine是Google出自自身的設(shè)計(jì),Caffeine使Google能夠更迅速的添加新的鏈接(包括新聞報(bào)道以及博客文章等)到自身大規(guī)模的網(wǎng)站索引系統(tǒng)中,相比于以往的系統(tǒng),新系統(tǒng)可提供“50%新生”的搜索結(jié)果。

  而這一切都要?dú)w功于Google開創(chuàng)性的MapReduce。Google搜索引擎算法只是其搜索引擎的一部分,在后臺(tái)支持Google算法的基礎(chǔ)設(shè)施才是真正的幕后英雄,其基礎(chǔ)設(shè)施可快速的索引鏈接成千上萬臺(tái)普通服務(wù)器。MapReduce的成功也直接推動(dòng)了Hadoop的發(fā)展,F(xiàn)今從Facebook、Twitter、eBay、LinkedIn以及eBay都受其影響,而為了適應(yīng)大數(shù)據(jù)時(shí)代的浪潮他們必須有進(jìn)一步的舉措。

  Google在基于Web的分布式計(jì)算系統(tǒng)領(lǐng)域已經(jīng)贏得了贊譽(yù)。而MicrosoftBing搜索引擎的負(fù)責(zé)人HarryShum認(rèn)為Microsoft雖然沒有“Caffeine”的支持,但Bing搜索(利用數(shù)以萬計(jì)的服務(wù)器軟件平臺(tái)處理數(shù)據(jù))的能力絲毫不輸給Google。GoogleCaffeine的優(yōu)勢(shì)在于快速抓取、編制索引和服務(wù)器文檔。而Bing在這方面也是非常出色的。但這一切都需要基礎(chǔ)設(shè)施的支持。

  

\

  HarryShum于2007年加入Bing團(tuán)隊(duì),HarryShum已經(jīng)在Microsoft研究院工作了11年。HarryShum的目標(biāo)就是讓Bing在搜索引擎領(lǐng)域技術(shù)趕上Google。在過去五年中,Google仍舊是全球最出色的搜索引擎,有人預(yù)計(jì)其市場(chǎng)占有率可能高達(dá)85%或90%。但HarryShum深信Bing終將在技術(shù)水平上趕超Google。多年來,我們一直在努力完善,在經(jīng)過持之以恒的努力后,Bing的搜索質(zhì)量已經(jīng)接近Google的水平。HarryShum說到。

  毫無疑問,Google不會(huì)贊同HarryShum的說法,Google的工程師認(rèn)為Caffeine是非常重要的。Caffeine索引覆蓋1億GB數(shù)據(jù)。Caffeine可在幾秒或幾分鐘的時(shí)間從新聞網(wǎng)站或博客中添加內(nèi)容。

  HarryShum認(rèn)為Bing索引系統(tǒng)與Caffeine不同。他表示雖然Google聲稱他們一些重大的技術(shù)是最新的。但Caffeine的一些功能Bing已經(jīng)在內(nèi)部運(yùn)行了。但同時(shí)我們也要構(gòu)建新的技術(shù),以完善我們的系統(tǒng),我們也在這樣做著。

  當(dāng)討論軟件時(shí),無論是Google還是Microsoft都避而不談支撐他們搜索引擎和其他Web服務(wù)的技術(shù)。但HarryShum表示驅(qū)動(dòng)Bing的專有軟件平臺(tái)被稱之為Cosmos。這在Microsoft研究院發(fā)布研究論文有所提及。Cosmos類似于Google構(gòu)建與MapReduce之上的GFS(GoogleFileSystem)。HarryShum同時(shí)表示Microsoft正在設(shè)法完善并擴(kuò)大Cosmos平臺(tái),以便使之能夠幫助Bing搜索引擎達(dá)到實(shí)時(shí)收錄的地步。

  

\

  在Google采用Caffeine之前,Google使用MapReduce和分布式文件系統(tǒng)(如GFS)來構(gòu)建搜索索引(從已知的Web頁面索引中)。MapReduce是一種處理大型及超大型數(shù)據(jù)集并生成相關(guān)的執(zhí)行的編程模型。其主要思想是從函數(shù)式編程語言里借來的,同時(shí)也包含了從矢量編程語言里借來的特性。MapReduce將整個(gè)任務(wù)分解成成百甚至上千塊小任務(wù),然后發(fā)送到計(jì)算機(jī)集群中。

  Google的網(wǎng)絡(luò)爬蟲會(huì)從整個(gè)網(wǎng)絡(luò)中抓取相關(guān)的文件信息。然后將信息分發(fā)到Google全球配置了GFS的網(wǎng)絡(luò)服務(wù)器中。而MapReduce負(fù)責(zé)在服務(wù)器協(xié)調(diào)數(shù)據(jù)處理的任務(wù),以便可以將處理好的所有數(shù)據(jù)分配到人們實(shí)際搜索的頁面索引中。在Google剛剛推出搜索引擎時(shí),MapReduce每個(gè)月都會(huì)建立新的索引。后來,Google改善了系統(tǒng),并逐步減少re-crunch索引所需的時(shí)間。但當(dāng)需求達(dá)到新的高度時(shí),就需要?jiǎng)討B(tài)的方式來更新索引。于是Google進(jìn)入了Caffeine時(shí)代。

  Goolge的技術(shù)使得系統(tǒng)可以很快的抓取頁面并添加到索引之中。在過去,因?yàn)樵诿看胃滤饕治稣麄(gè)Web,這導(dǎo)致Google需要處理大量的索引頁(數(shù)十億的文檔)。但自從Google采用Caffeine后,Google只需從Web中分析其中的一小部分,所以Google可以持續(xù)不斷的更新索引。

  在本質(zhì)上Caffeine丟棄MapReduce轉(zhuǎn)而將索引放置在由Google開發(fā)的分布式數(shù)據(jù)庫BigTable上。作為Google繼GFS和MapReduce兩項(xiàng)創(chuàng)新后的又一項(xiàng)創(chuàng)新,其在設(shè)計(jì)用來針對(duì)海量數(shù)據(jù)處理情形下的管理結(jié)構(gòu)型數(shù)據(jù)方面具有巨大的優(yōu)勢(shì)。這種海量數(shù)據(jù)可以定義為在云計(jì)算平臺(tái)中數(shù)千臺(tái)普通服務(wù)器上PB級(jí)的數(shù)據(jù)。Bigtable的出現(xiàn)也徹底改變了Google的索引機(jī)制。Google正在構(gòu)建新版本的GFS,其被稱為GFS2,但在Google內(nèi)部GFS2被稱為Colossus。

  HortonworksCEOBaldeschwieler認(rèn)為Google將Caffeine用于搜索中是非常令人信服的創(chuàng)意。當(dāng)Baldeschwieler還在Yahoo工作時(shí),公司曾考慮過這樣的平臺(tái),但因?yàn)榘嘿F的成本最終決心走Hadoop路線。

  Microsoft的HarryShum表示相對(duì)于GoogleCaffeine,Microsoft選擇了不同的道路和發(fā)展方向。雖然他并沒有透露過多的細(xì)節(jié),但HarryShum表示Microsoft目前基于Cosmos平臺(tái)是更多并行的數(shù)據(jù)庫。

  

\

  Dryad在微軟軟體系結(jié)構(gòu)中的位置

  去年,微軟曾公布了建立與Cosmos之上的Dryad框架,這個(gè)類似MapReduce的框架一直驅(qū)動(dòng)著Bing。但目前無法得知Dryad在Bing搜索引擎中占據(jù)怎樣的角色。其實(shí)Dryad也并非微軟的新產(chǎn)品,Dryad和DryadLINQ早在微軟收購Powerset之前就已經(jīng)存在。微軟于2007年首度揭曉了關(guān)于技術(shù)的研究成果,并于2009年向?qū)W術(shù)界推出了非商業(yè)版Dryad和DryadLINQ。但與MapReduce不同的是,Dryad是針對(duì)運(yùn)行WindowsHPCServer的集群計(jì)算設(shè)計(jì)的,而非Linux。

作者:李智  責(zé)任編輯:劉斌
要了解更多,可繼續(xù)查閱相關(guān)資訊:
最新評(píng)論共有 0 位網(wǎng)友發(fā)表了評(píng)論
發(fā)表評(píng)論
評(píng)論內(nèi)容:不能超過250字,需審核,請(qǐng)自覺遵守互聯(lián)網(wǎng)相關(guān)政策法規(guī)。
用戶名: 密碼:
匿名?
注冊(cè)

關(guān)于我們 | 保護(hù)隱私權(quán) | 網(wǎng)站聲明 | 投稿辦法 | 廣告服務(wù) | 聯(lián)系我們 | 網(wǎng)站導(dǎo)航 | 友情鏈接 | 不良信息舉報(bào):(將#換成@即可)
京ICP備號(hào)-1