分類導(dǎo)航

Spark踩坑記——Spark Streaming+Kafka

發(fā)布時(shí)間：2017年01月04日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點(diǎn)擊查看原文)

前言

在Wetest輿情項(xiàng)目中，需要對(duì)每天千萬級(jí)的游戲評(píng)論信息進(jìn)行詞頻統(tǒng)計(jì)，在生產(chǎn)者一端，我們將數(shù)據(jù)按照每天的拉取時(shí)間存入了Kafka當(dāng)中，而在消費(fèi)者一端，我們利用了spark streaming從kafka中不斷拉取數(shù)據(jù)進(jìn)行詞頻統(tǒng)計(jì)。本文首先對(duì)spark streaming嵌入kafka的方式進(jìn)行歸納總結(jié)，之后簡(jiǎn)單闡述Spark streaming+kafka在輿情項(xiàng)目中的應(yīng)用，最后將自己在Spark Streaming+kafka的實(shí)際優(yōu)化中的一些經(jīng)驗(yàn)進(jìn)行歸納總結(jié)。（如有任何紕漏歡迎補(bǔ)充來踩，我會(huì)第一時(shí)間改正^v^）

Spark streaming接收Kafka數(shù)據(jù)

用spark streaming流式處理kafka中的數(shù)據(jù)，第一步當(dāng)然是先把數(shù)據(jù)接收過來，轉(zhuǎn)換為spark streaming中的數(shù)據(jù)結(jié)構(gòu)Dstream。接收數(shù)據(jù)的方式有兩種：1.利用Receiver接收數(shù)據(jù)，2.直接從kafka讀取數(shù)據(jù)。

基于Receiver的方式

這種方式利用接收器（Receiver）來接收kafka中的數(shù)據(jù)，其最基本是使用Kafka高階用戶API接口。對(duì)于所有的接收器，從kafka接收來的數(shù)據(jù)會(huì)存儲(chǔ)在spark的executor中，之后spark streaming提交的job會(huì)處理這些數(shù)據(jù)。如下圖：
萬碼學(xué)堂,電腦培訓(xùn),計(jì)算機(jī)培訓(xùn),Java培訓(xùn),JavaEE開發(fā)培訓(xùn),青島軟件培訓(xùn),軟件工程師培訓(xùn)
在使用時(shí)，我們需要添加相應(yīng)的依賴包：

<dependency><!-- Spark Streaming Kafka -->
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-streaming-kafka_2.10</artifactId>
    <version>1.6.3</version></dependency>

分類導(dǎo)航

Spark踩坑記——Spark Streaming+Kafka

前言

Spark streaming接收Kafka數(shù)據(jù)

基于Receiver的方式

延伸閱讀

我想了解如何學(xué)習(xí)