網(wǎng)站首頁 科技 > 正文
2022年1月10整理發(fā)布:近年來,隨著大數(shù)據(jù)底層設施的逐漸成熟,大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè),向行業(yè)應用延伸。圍繞數(shù)據(jù)資源、基礎(chǔ)硬件、通用軟件等方面的大數(shù)據(jù)產(chǎn)業(yè)正在逐漸形成。各行各業(yè)對大數(shù)據(jù)人才的需求也日益增強。 鑒于此,國內(nèi)外一些高校先后開設“數(shù)據(jù)科學與大數(shù)據(jù)”專業(yè),旨在培養(yǎng)具備大數(shù)據(jù)技術(shù)的高級人才。
編寫目的
為滿足相關(guān)技術(shù)人員和高校師生學習大數(shù)據(jù)技術(shù)基礎(chǔ)知識,我們在總結(jié)近幾年大數(shù)據(jù)技術(shù)基礎(chǔ)知識和應用案例的基礎(chǔ)上,以理論結(jié)合實踐的方式將大數(shù)據(jù)基本概念、大數(shù)據(jù)開發(fā)技術(shù)與實際應用相結(jié)合,精心組織并完成了本書的編寫。
本書主要內(nèi)容
本書為一本夯實大數(shù)據(jù)基礎(chǔ)知識,以實際應用為導向的書籍,非常適合初、中級學習大數(shù)據(jù)技術(shù)的讀者。讀者可以在短時間內(nèi)學習本書中介紹的所有知識,掌握大數(shù)據(jù)技術(shù)的開發(fā)方法。
作為一本關(guān)于大數(shù)據(jù)技術(shù)的入門書籍,本書共有14章。
第1章主要介紹了大數(shù)據(jù)的研究背景、大數(shù)據(jù)的定義及其技術(shù)特點以及大數(shù)據(jù)處理的主要技術(shù)特點與難點,最后闡述了研究大數(shù)據(jù)的意義。
第2章主要介紹了Hadoop的起源、生態(tài)體系和集群架構(gòu),對Hadoop的安裝配置進行了詳細的講解。
第3章主要介紹了Hadoop中非常重要的分布式存儲文件系統(tǒng)——HDFS,分析了HDFS的存儲架構(gòu)以及常用Shell命令和Java API,并且通過一個具體案例實現(xiàn)了HDFS的Java API的編程。
第4章主要介紹了Hadoop的分布式計算框架MapReduce,分析了MapReduce的核心思想、工作原理、運行機制以及MapReduce的核心過程Shuffle,最后通過單詞計數(shù)和倒排索引兩個案例詳細分析MapReduce的編寫過程和思路。
第5章主要介紹了Hive的架構(gòu)、安裝和相關(guān)操作,重點介紹Hive的DDL、DML、DQL操作。
第6章首先介紹了HBase的架構(gòu)、尋址機制以及HBase的安裝,然后介紹了HBase的Shell操作,包括新建表、插入數(shù)據(jù)、刪除等操作,最后介紹了HBase常用的Java API,并且進行了案例實現(xiàn)。
第7章主要介紹了Spark的基本概念和主要特點、Spark的安裝、運行架構(gòu)和運行基本流程,是為學習Spark RDD和 Spark SQL做基礎(chǔ)知識儲備。
第8章主要介紹了RDD的運行原理和運行流程,并對RDD的基本操作進行了詳細的介紹,最后用一個Scala編程案例實現(xiàn)對RDD的操作。
第9章主要介紹了Spark SQL的原理和運行流程,并對DataFrame的基本操作進行了詳細的介紹,最后通過三個Scala編程案例實現(xiàn)了Spark SQL的DataFrame操作、Spark SQL 讀寫MySQL數(shù)據(jù)庫和Spark SQL讀寫Hive。
第10章主要介紹了Spark Streaming的一些基本概念和原理,介紹了DStream編程模型,最后通過三個Scala編程案例實現(xiàn)了DStream的有狀態(tài)狀態(tài)操作、無狀態(tài)狀態(tài)操作、輸出操作。
第11章主要介紹了Spark Streaming與Flume、Kafka的整合,介紹了Flume和Kafka的安裝過程,最后通過一個Scala編程案例實現(xiàn)Spark Streaming與Flume、Kafka的整合與開發(fā)。
第12章介紹了機器學習的定義和分類,重點介紹了Spark MLlib目前包含的算法和組件,通過四個具體實例TFIDF、線性回歸、邏輯回歸、協(xié)同過濾展示了利用Spark MLlib進行機器學習的方法和步驟。
第13章介紹了分布式優(yōu)惠券后臺應用系統(tǒng)的開發(fā)核心思路,優(yōu)惠券后臺應用系統(tǒng)包括商戶投放子系統(tǒng)和用戶消費子系統(tǒng),分別介紹了兩個子系統(tǒng)的核心代碼以及測試調(diào)用過程。
第14章介紹了新聞話題實時統(tǒng)計分析系統(tǒng)的開發(fā)核心思路和核心代碼以及啟動調(diào)用過程。
本書特色
(1)以實戰(zhàn)開發(fā)為導向,對基礎(chǔ)理論知識點與開發(fā)過程進行詳細講解。
(2)實戰(zhàn)案例豐富,涵蓋16 個完整項目案例和兩個綜合案例,綜合案例可以加深對本書所學的知識點的理解和掌握。
(3)代碼詳盡,避免對 API 的形式展示,規(guī)避重復代碼。
(4)語言簡明易懂,由淺入深帶領(lǐng)讀者學會以 Hadoop生態(tài)圈為核心的開發(fā)技術(shù)和大數(shù)據(jù)常見的機器學習算法。
配套資源
為便于教學,本書配有源代碼、數(shù)據(jù)集、安裝程序、教學大綱。
編輯推薦
16個完整的項目案例和兩個綜合案例,配有教學大綱等資源
讀者對象
本書主要面向廣大從事大數(shù)據(jù)分析、應用開發(fā)、機器學習、數(shù)據(jù)挖掘的專業(yè)人員以及從事高校信息技術(shù)專業(yè)的教師和高等院校的在讀學生及相關(guān)領(lǐng)域的廣大科研人員。
版權(quán)說明: 本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!
- 上一篇: 平板電腦如何選擇
- 下一篇: Seagull海鷗吉他的理念是做出最好的手工吉它
猜你喜歡:
- 2022-09-20 心境豁達恬淡的詩句有哪些呢(心境豁達恬淡的詩句有哪些)
- 2022-09-20 下雨前的征兆動物(下雨前動物有哪些征兆 – 糗問)
- 2022-09-20 便秘按摩哪里馬上見效快(便秘按摩哪里馬上見效)
- 2022-09-20 經(jīng)心的近義詞是什么呀(經(jīng)意的近義詞是什么呢)
- 2022-09-20 芡實怎么熬粥好吃(芡實和什么搭配熬粥好)
- 2022-09-20 0.44平方千米是多大(0.44平方千米有多大)
- 2022-09-20 北京奧運會會徽中國印是什么印(北京奧運會徽上中國印是什么)
- 2022-09-20 qq空間訪客數(shù)量是什么意思(QQ空間訪問量2000是什么概念)
最新文章:
- 2023-06-30 小龍蝦清洗怎么快又干凈(龍蝦怎么快速清洗 清洗龍蝦的方法)
- 2023-06-30 簡約現(xiàn)代的陽臺吊頂裝修用材料有哪些(休閑陽臺吊頂材料有哪些)
- 2023-06-30 蘑菇怎么清洗泥沙(蘑菇怎么清洗)
- 2023-06-30 王羲之的書法對聯(lián)(王羲之最美10幅對聯(lián))
- 2023-06-30 人類有信息素味道嗎(人類存在信息素嗎)
- 2023-06-30 對老師的感謝語20字(對老師的感謝語)
- 2023-06-30 食品安全知識內(nèi)容培訓(食品安全知識內(nèi)容)
- 2023-06-30 五一勞動節(jié)文案幽默(五一勞動節(jié)文案)
- 2023-06-30 合作共贏精彩語句八個字(簡短哀悼語八個字)
- 2023-06-30 中國的唐代建筑哪去了(中國唯一唐朝建筑)
- 2023-06-30 生死恨由京劇是主演(生死恨由誰主演京劇名家)
- 2023-06-30 了解戰(zhàn)國歷史看什么書(了解歷史看什么書)
- 2023-06-30 七創(chuàng)社出了哪些游戲(七創(chuàng)社還有什么動畫片)
- 2023-06-30 流浪地球講述的是什么故事(流浪地球講了什么故事)
- 2023-06-30 漂亮的主婦和健身教練是第幾集(漂亮主婦在家和教練是哪集)
- 2023-06-30 張仲景的傷寒雜病論并注明了什么(張仲景的傷寒雜病論并著述了什么)