TikTok字節跳動大規模抓取網路數據!速度甚至超越OPENAI?

分享

字節跳動(ByteDance),抖音(TikTok)的母公司,正以驚人的速度進行網路數據爬蟲抓取,試圖迅速擴展其AI模型訓練的資料庫,根據多方研究機構指出,字節跳動的抓取器「Bytespider」每秒抓取數據量達到OpenAI的25倍。這篇文章將帶你深入了解這個現象背後的原因及其可能帶來的影響。

字節跳動的網路爬蟲

根據Kasada的研究,字節跳動於今年4月悄悄推出名為「Bytespider」的網路爬蟲工具,並迅速成為目前最積極的數據抓取公司之一。相比之下,OpenAI的抓取器GPTbot僅能達到Bytespider的1/25速度,Anthropic的ClaudeBot更只能望塵莫及,速度僅為Bytespider的1/3000。這樣的抓取速度引起了外界的高度關注,尤其是在全球各大企業都積極打造各自的生成式AI模型時,字節跳動的這波數據搶奪戰顯得尤為激進。

更令人驚訝的是,Bytespider不僅忽視網站設置的「robots.txt」檔案(此檔案旨在限制爬蟲抓取網站資料),還在短短幾個月內快速增加其抓取頻率,每週的數據量呈現爆炸式增長。業界人士推測,字節跳動急於填補過去在AI發展上落後的空白,甚至有可能在打造一個全新的大型語言模型。

中美科技戰,字節跳動轉向中國本土供應鏈

除了在數據抓取上展現出強烈的攻勢外,字節跳動在硬體資源上也積極轉向中國本土供應商。今年以來,由於美國政府對高端AI晶片實施出口管制,使得字節跳動被迫從美國的Nvidia轉向依賴華為的Ascend 910B晶片來訓練其AI模型。根據消息人士透露,字節跳動已經向華為訂購了超過10萬顆Ascend 910B晶片,但截至7月僅收到不到30,000顆,這種供應上的瓶頸可能會影響其AI模型的開發進度。

有趣的是,儘管面臨供應不足的問題,字節跳動仍選擇繼續投資華為的AI晶片。一位熟悉內情的消息人士表示,字節跳動希望藉此在長期內脫離對美國技術的依賴,甚至加快其自研AI技術的步伐。

更多關於中美科技戰詳見
美中關係再掀波瀾!美國國會全面針對中國,從無人機禁令到對台威懾法案
美中科技冷戰?針對中國量子科技出口管制升級!

抖音搜尋功能的AI升級

除了用於生成式AI模型的開發,字節跳動的數據抓取行動也與其近期對抖音搜尋功能的改良有關。上週,抖音更新了其搜尋功能,讓廣告商可以更輕鬆地搜尋到熱門關鍵詞,從而優化廣告的曝光效果。

若未來字節跳動成功開發出更新、更強大的AI模型,不僅有望提升抖音在精確搜尋及推薦上的能力,還可能對現有的搜尋引擎巨頭如Google形成威脅。因為當抖音的搜尋環境變成一個完全可競標的廣告空間時,這對那些在Google Ads上投入大量廣告預算的公司來說無疑是個充滿吸引力的新選擇。

字節跳動的大語言模型

面對AI技術的飛速發展,各大科技公司都在競相開發更高效、更強大的語言模型,而字節跳動的策略顯然是快速填補其過去的落後局面。今年年初,字節跳動還被曝出曾使用OpenAI的技術來協助訓練其自家的LLM,這明顯違反了OpenAI的服務條款。

今年8月,字節跳動推出了自己的大型語言模型「豆包」(Doubao),並隨後釋出了兩款視頻生成AI模型,試圖與OpenAI的技術進行競爭。有分析人士認為,Bytespider的數據抓取行為可能是為了訓練下一代的語言模型,進一步強化其在生成式AI領域的競爭力。

對於其他科技公司來說,未來如何應對這樣一個具備強大數據爬蟲能力的競爭者,無疑將是一個重大挑戰。

推薦閱讀

你可能也喜歡

其他人都在看