深圳市重點新聞門戶網站
投稿郵箱:[email protected]
中國深圳網
正在加載數據...
當前位置:中國深圳網> 財經> 產業經濟>正文內容
  • 字節跳動的搜索爬蟲為何如此野蠻兇猛
  • 2019年11月08日來源:中國企業家

提要:從字節跳動開始做搜索之后,網絡上就一直有網站主們抱怨其爬蟲抓取過于暴力的聲音,到今年10月末,小網站主的抱怨達到高峰,至今余波未平。面對對手們加筑的越來越高的內容壁壘,字節跳動對內容的焦慮似乎更強烈,直接反映在了搜索爬蟲凌厲的抓取上。

當看到字節跳動要做全網搜索的新聞時,王東一點都不感到驚訝。因為早在頭條搜索正式上線半個多月前,王東所在公司的網站就飽受一個名為“bytespider”爬蟲的侵擾。

王東在一家第三方信息評估平臺做SEO(搜索引擎優化),今年7月份,他突然發現公司的網站經常性打不開,網頁加載極其緩慢,有時甚至直接癱瘓。經過一系列排查后,王東在服務器日志上發現了bytespider爬蟲的痕跡。

王東發現該爬蟲抓取的頻率每天達幾百萬次,高則上千萬次,服務器帶寬負載飆至100%,而且該爬蟲在抓取時完全不遵守網站的robots協議。順著該爬蟲的IP地址查詢,王東和團隊證實,該爬蟲就是字節跳動的搜索爬蟲。

苦主并非只有王東,他在CSDN、V2EX等技術論壇了解到,遭受該爬蟲暴力抓取的還有很多人,很多用戶直接表示“太頻繁”“不殺不行”“直接封殺”。魏立超在一家互聯網社區平臺工作,同樣遭受bytespider的暴力抓取,他也曾嘗試過在網絡上求助。10月24日,類似的事情經過微博大V的曝光,一時引起互聯網技術圈子的熱議。

但令魏立超感到心寒的是,網上卻流傳著一種“弱者活該”的說法——“能被頭條搜索引擎抓取應該覺得榮幸才是,說明你們內容有價值”,“今日頭條是在免費給你們做性能測試,如果你們網站隨便被搜索引擎抓死,那技術可以下崗了”。

因為不堪其擾,給公司帶來重大損失,無奈之下,像王東、魏立超這樣的網站主們都只好封禁了該爬蟲IP所有頻段。

對此,字節跳動回應記者稱,“網絡報道不實,目前頭條搜索設有反饋機制,網站因為爬蟲受到影響,可以直接通過郵件反饋處理。”

從字節跳動開始做搜索之后,網絡上就一直有網站主們抱怨其爬蟲抓取過于暴力的聲音,到今年10月末,小網站主的抱怨達到高峰,至今余波未平。

野蠻爬蟲

爬蟲是網絡爬蟲的一種簡稱,它是一種按照一定規則自動地抓取萬維網信息的程序或腳本,定時并按照一定的頻率把互聯網上的內容爬下來,匯總存儲到自己的服務器上,以方便用戶搜索。

通常來講,在互聯網技術圈,數據抓取是一件很正常的事情。通過爬蟲抓取網站內容是搜索引擎進行數據積累的必要前提。此外,一些數據分析、數據采集的功能也依賴爬蟲技術實現。但爬蟲抓取也有一些江湖規則或君子協定,比如robots協議。robots協議由網站主自行設置,網站會規定爬蟲引擎哪些內容數據可以抓取,哪些禁止抓取,尤其是涉及到用戶數據等隱私信息的。

但是王東發現bytespider的特征是不遵守robots協議,且抓取頻次太高。從技術社區了解到,爬蟲就是對服務器的內容進行訪問的過程,任何訪問都會占用服務器的響應資源,一旦瞬間訪問壓力超過程度,就會對網站的穩定性造成影響。為了維護整個互聯網生態,爬蟲的所有者會通過一定的策略來控制爬蟲訪問的速度和總量。

所以,有技術人員認為,“應該是字節跳動本身在控制爬蟲抓取的頻次上出了問題。”

其實,對于像王東這樣做SEO的人來說,其主要工作目標就是希望自己家網站能在主流搜索引擎的搜索結果中排在前面的位置。“對于像百度、搜狗、360等搜索引擎的規范抓取和收錄我是非常歡迎的,但是bytespider卻直接讓網站癱瘓了,這也導致網站流量在那段時間也掉了不少。”

令王東們頭疼的是,字節跳動的搜索引擎既沒給他們帶來多少新流量,反倒還給公司帶來很多損失,并且影響了正常的用戶訪問。

王東們想知道,為什么字節跳動沒能控制好爬蟲的抓取頻次?

行業資深人士分析認為大致有兩種可能。一種可能是字節跳動為了短期快速擴充自身搜索規模而主觀進行的惡意抓取;另一種可能是目前字節跳動的搜索爬蟲策略不夠完善,客觀結果上導致的抓取過量。

“考慮到在今日頭條剛開始發展的時候,他們抓取內容的時候完全無視版權和內容方的抗議,也不排除是主觀行為,但我覺得字節跳動現在已經是很大的企業,應該不至于主觀這么干。”上述行業資深人士如此推斷。

也有另一位互聯網行業資深人士認為,“這事兒沒那么復雜,就是具體干活兒的團隊太糙,項目著急上線,根本來不及做動態調整的邏輯算法,主觀作惡的可能性較小。”

但不管主觀出發點如何,字節跳動為了快速發展搜索而派出爬蟲四處暴力抓取,并不遵守既定規則,已經給中小網站主們造成了客觀的損失和困擾。

對于網絡上流傳的“弱者活該”的說法。技術人員顯然不認同,他認為,“把問題推給小網站自身抗風險能力不強太偏頗了,這種規模的爬蟲抓取頻次不在小網站正常的考量范圍內,大的站點對于搜索引擎爬蟲的過激抓取肯定會有很好的應對策略,畢竟有那么多做技術的,但很多小的站點很可能沒有專門的技術人員,只是租用了服務器,采用了一些開源的建站方案,不具備應對能力也很正常。”

而有小網站主抱怨字節跳動的爬蟲“一上午對網站發出46萬次請求”,上述技術人員認為:“以個人的經驗來說,這個請求頻次肯定是過高了,至于是不是惡意的不能確定。網站都癱瘓了,肯定是不幸了。”

內容戰爭

今年8月10日,字節跳動正式上線了網頁版通用搜索,爬蟲抓取是搜索引擎效果實現中的重要一環。

對于每進入一個新領域,字節跳動都有一套慣用的打法,要么直接花錢收購該領域的公司,要么把該領域的專業人才挖過來。比如在2017年11月收購中國企業打造的海外音樂短視頻平臺musical.ly,增強自己的短視頻業務;在2019年5月,收購教育培訓平臺清北網校,增強自己的在線教育業務,等等。

事實上,字節跳動早就布局搜索領域。早在2014年,在百度負責搜索框架的百度網頁搜索部技術副總監楊震原就被張一鳴挖入今日頭條,在頭條曾主導廣告和推薦兩大核心系統升級。此外,原百度搜索部主任架構師朱文佳、原百度美國深度學習實驗室少帥科學家李磊等百度重要人才均被張一鳴挖入今日頭條。今年3月,字節跳動挖來了前360搜索產品負責人,開啟搜索商業化。

此外,為了拓展搜索內容,字節跳動也在通過收購來完善自己的內容庫,比如全資收購互動百科。截止到8月27日,互動百科已經在董事、經理、監事;投資人;法定代表人三個方面進行了全面變更,原來的創始團隊全部退出,目前已經被字節跳動全資控股。

雖然在人才和技術上早有準備,但是對于搜索業務而言,搜索引擎這個生態的建立不是一朝一夕可以完成的,百度、搜狗已經經歷了多年的發展積累。而搜索的內容庫是搜索技術施展拳腳的前提,否則搜索引擎就是無源之水。為了獲取盡可能多的內容,可能是字節跳動采取暴力抓取的原因之一。

甚至,為了抓取到更多內容,往往就“越界”,字節跳動還因此惹上了官司。今年4月,百度就曾因搜索一紙訴狀將字節跳動告至北京市海淀區人民法院。百度方面稱,今日頭條大量竊取百度“TOP1”搜索產品結果,百度要求字節跳動立即停止侵權,賠償相關經濟損失及合理支出共計人民幣9000萬元,并連續30天在其APP及網站首頁道歉。除民事起訴外,百度也同時向法院提交了行為禁止保全申請書。

百度為媒體提供的公開案例中顯示,在字節跳動旗下今日頭條APP中搜索“1立方厘米水等于多少升”問題時,其首條展示的搜索結果中被嵌入了“抄自百度”的字眼,而該字眼則是百度為防止TOP1搜索結果被抄襲預先打下的防偽標記。

有趣的是,同一天字節跳動方面也發表聲明表示,百度未經抖音授權,在其開發運營的“簡單搜索”APP的熱榜板塊設置了抖音專欄,從抖音竊取視頻,百度又通過技術手段將抖音的水印抹去。抖音要求百度立即停止侵權,賠償9000萬元,并在百度首頁連續道歉30天。

因為字節跳動與百度在商業模式和業務邏輯的相近,雙方均是通過流量換取廣告商業營收,在過去的數年中,百度被視為最有可能被字節跳動顛覆的公司。

雙方的戰爭一觸即發。為了迎戰,百度方面,馬東敏親自負責的百度戰略投資部在今年開始頻繁出擊,先后投資了有贊、凱叔講故事、七貓小說、知乎、果殼等眾多內容服務類項目,背后的戰略意圖便在于豐富內容信息流。以知乎為例,知乎全站問答將以智能小程序的形式接入百度APP中。以搜索起家的百度宣布將著力打造“搜索+信息流”兩大流量引擎和“百家號+智能小程序”兩大生態,構筑起壁壘。

一位互聯網TMT領域投資人告訴記者,“百度的清醒和出擊讓字節跳動在內容獲取上變得越來越困難。此外,字節跳動的四處出擊,也引起了其他互聯網巨頭的重視,騰訊就要求抖音禁播王者榮耀等騰訊系游戲的視頻。行業里的一些內容社區等等都把字節跳動視作競爭對手,并不會輕易為其開放內容。”

面對對手們加筑的越來越高的內容壁壘,字節跳動對內容的焦慮似乎更強烈,直接反映在了搜索爬蟲凌厲的抓取上。

其實,從某種程度上,如今像王東等網站主們的遭遇,也正如2015年左右今日頭條APP興起之時,各大內容版權方們的遭遇。當時,今日頭條為了獲取內容,拓展信息分發市場,甚至沒有先獲取內容版權方轉載和分發的許可,就大量抓取內容版權方的內容,因此,多次因版權問題被告至法庭,引發了無數的版權糾紛。

當字節跳動切入全網搜索時,在內容抓取上,歷史似乎重演。

不能停止的增長

在如今的互聯網江湖,不僅百度,其他任何巨頭都不敢小覷字節跳動和張一鳴。

從2012年成立至今的7年間,張一鳴率領今日頭條在移動端圖文信息市場立足后,又成功推出抖音短視頻應用,截至2019年7月,抖音的DAU(日活躍用戶)已經達到3.2億。依托今日頭條、抖音兩個流量池,字節跳動不斷把觸角延伸至社交、游戲、電商、教育等各個領域,旗下所有產品在全球范圍內的DAU已達到7億,月活超過15億。字節跳動正在各個領域沖擊著原有的互聯網巨頭的城池。

7年間,字節跳動的員工數也已經突破5萬。在過往的媒體報道中,字節跳動被形容為一個APP工廠,通過技術、獲客、商業化變現這三大核心部門構成的流水線,不斷將成功的產品經驗在各個領域復制,再進行AB測試,快速迭代。

在字節跳動快速擴張的過程中,因為手段頗為凌厲,讓外界一度議論紛紛。

在給外界壓力的同時,激進的打法也在內部產生了影響,“字節跳動內部快速迭代,高速增長目標的企業文化也難免會給員工帶來高壓力,而高壓力則可能導致操之過急或者動作變形,即便張一鳴并不想這么做。”一位接近字節跳動的人士告訴記者。

該人士繼續解釋,“2019年字節跳動的營收目標是至少1000億,壓力非常大。今日頭條主APP的增長基本停滯了,今日頭條正在艱難度過1.2億DAU的增長瓶頸期,抖音及其海外版Tik Tok成為重要的增長引擎。但海外市場并不像中國一樣,多語言,多文化背景,監管政策多樣復雜,充滿不確定性。”

11月4日消息,路透社援引不具名知情人士報道稱,美國政府已經就字節跳動對該國社交媒體應用musical.ly的收購啟動了國家安全調查。美國外國投資委員會(CFIUS)已經開始審查此次收購,該委員會負責審查外國收購的交易是否構成潛在的國家安全風險。與此同時,Facebook正對其加大警惕,并將之列為競爭對手。

此外,據《晚點LatePost》報道,在字節跳動內部舉行的6~7月CEO面對面會上,張一鳴說,“如果沒有搜索場景的拓展和優質內容,今日頭條的增長空間可能只剩下4000萬DAU。”

為了維持字節跳動的增長勢頭,搜索引擎作為一種被驗證過的、成熟健康的商業模式,成為今日頭條拓展商業增長的重要業務之一。國內的搜索市場上主要有百度、360搜索、搜狗搜索三大玩家,其中根據StatCounter Global Stats的統計數據,截止到2019年7月份,百度占據了中國搜索引擎全平臺市場的76.42%份額。字節跳動打造的全網搜索,會在多大程度上影響搜索市場的份額變化,還是個未知數。

搜索和智能推薦都是獲取信息的方式,對用戶來說,搜索的成本高,但內容精度也高;推薦的成本低,內容精度也相對不高。為了滿足用戶準確獲取信息以及廣告主精準投放的需求,獲取更多用戶和商業變現機會,兩種模式正在加速融合。

“搜索+信息流兩者結合是目前看來比較好的方式,目前百度和字節跳動都從不同的起點出發趕往這個終點。但從搜索到信息流,和從信息流到搜索,這兩者的難度不太一樣,后者更難一些,搜索太復雜了。”一位行業資深人士告訴記者。

雖然搜索引擎成敗的影響因素眾多,但很顯然,現在字節跳動搜索爬蟲的頻繁爬取和不遵守行業規則,已經給很多網站主們都造成了不太好的印象。目前,字節跳動的搜索爬蟲bytespider還躺在魏立超的黑名單中,短期內并不會解封。他希望字節跳動能夠遵循市場規律和準則做事,一起保護好網站內容的生態。

但面對字節跳動可能帶來的潛在流量誘惑,也并非人人都立場堅定。王東就告訴記者,“封字節跳動的IP是萬不得已,什么時候解封,只能看搜索引擎市場份額變化。”

(應受訪者要求,文中王東、魏立超皆為化名)



責任編輯:嚴珣文
文章排行榜
九龙创富心水论坛