大香蕉综合在线观看视频-日本在线观看免费福利-欧美激情一级欧美精品性-综合激情丁香久久狠狠

好房網(wǎng)

網(wǎng)站首頁 科技 > 正文

大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè)向行業(yè)應用延伸

2022-01-10 09:22:19 科技 來源:搜狐網(wǎng)
導讀 2022年1月10整理發(fā)布:近年來,隨著大數(shù)據(jù)底層設施的逐漸成熟,大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè),向行業(yè)應用延伸。圍繞數(shù)據(jù)資源、基礎(chǔ)硬件、通

2022年1月10整理發(fā)布:近年來,隨著大數(shù)據(jù)底層設施的逐漸成熟,大數(shù)據(jù)技術(shù)開始結(jié)合具體行業(yè),向行業(yè)應用延伸。圍繞數(shù)據(jù)資源、基礎(chǔ)硬件、通用軟件等方面的大數(shù)據(jù)產(chǎn)業(yè)正在逐漸形成。各行各業(yè)對大數(shù)據(jù)人才的需求也日益增強。 鑒于此,國內(nèi)外一些高校先后開設“數(shù)據(jù)科學與大數(shù)據(jù)”專業(yè),旨在培養(yǎng)具備大數(shù)據(jù)技術(shù)的高級人才。

編寫目的

為滿足相關(guān)技術(shù)人員和高校師生學習大數(shù)據(jù)技術(shù)基礎(chǔ)知識,我們在總結(jié)近幾年大數(shù)據(jù)技術(shù)基礎(chǔ)知識和應用案例的基礎(chǔ)上,以理論結(jié)合實踐的方式將大數(shù)據(jù)基本概念、大數(shù)據(jù)開發(fā)技術(shù)與實際應用相結(jié)合,精心組織并完成了本書的編寫。

本書主要內(nèi)容

本書為一本夯實大數(shù)據(jù)基礎(chǔ)知識,以實際應用為導向的書籍,非常適合初、中級學習大數(shù)據(jù)技術(shù)的讀者。讀者可以在短時間內(nèi)學習本書中介紹的所有知識,掌握大數(shù)據(jù)技術(shù)的開發(fā)方法。

作為一本關(guān)于大數(shù)據(jù)技術(shù)的入門書籍,本書共有14章。

第1章主要介紹了大數(shù)據(jù)的研究背景、大數(shù)據(jù)的定義及其技術(shù)特點以及大數(shù)據(jù)處理的主要技術(shù)特點與難點,最后闡述了研究大數(shù)據(jù)的意義。

第2章主要介紹了Hadoop的起源、生態(tài)體系和集群架構(gòu),對Hadoop的安裝配置進行了詳細的講解。

第3章主要介紹了Hadoop中非常重要的分布式存儲文件系統(tǒng)——HDFS,分析了HDFS的存儲架構(gòu)以及常用Shell命令和Java API,并且通過一個具體案例實現(xiàn)了HDFS的Java API的編程。

第4章主要介紹了Hadoop的分布式計算框架MapReduce,分析了MapReduce的核心思想、工作原理、運行機制以及MapReduce的核心過程Shuffle,最后通過單詞計數(shù)和倒排索引兩個案例詳細分析MapReduce的編寫過程和思路。

第5章主要介紹了Hive的架構(gòu)、安裝和相關(guān)操作,重點介紹Hive的DDL、DML、DQL操作。

第6章首先介紹了HBase的架構(gòu)、尋址機制以及HBase的安裝,然后介紹了HBase的Shell操作,包括新建表、插入數(shù)據(jù)、刪除等操作,最后介紹了HBase常用的Java API,并且進行了案例實現(xiàn)。

第7章主要介紹了Spark的基本概念和主要特點、Spark的安裝、運行架構(gòu)和運行基本流程,是為學習Spark RDD和 Spark SQL做基礎(chǔ)知識儲備。

第8章主要介紹了RDD的運行原理和運行流程,并對RDD的基本操作進行了詳細的介紹,最后用一個Scala編程案例實現(xiàn)對RDD的操作。

第9章主要介紹了Spark SQL的原理和運行流程,并對DataFrame的基本操作進行了詳細的介紹,最后通過三個Scala編程案例實現(xiàn)了Spark SQL的DataFrame操作、Spark SQL 讀寫MySQL數(shù)據(jù)庫和Spark SQL讀寫Hive。

第10章主要介紹了Spark Streaming的一些基本概念和原理,介紹了DStream編程模型,最后通過三個Scala編程案例實現(xiàn)了DStream的有狀態(tài)狀態(tài)操作、無狀態(tài)狀態(tài)操作、輸出操作。

第11章主要介紹了Spark Streaming與Flume、Kafka的整合,介紹了Flume和Kafka的安裝過程,最后通過一個Scala編程案例實現(xiàn)Spark Streaming與Flume、Kafka的整合與開發(fā)。

第12章介紹了機器學習的定義和分類,重點介紹了Spark MLlib目前包含的算法和組件,通過四個具體實例TFIDF、線性回歸、邏輯回歸、協(xié)同過濾展示了利用Spark MLlib進行機器學習的方法和步驟。

第13章介紹了分布式優(yōu)惠券后臺應用系統(tǒng)的開發(fā)核心思路,優(yōu)惠券后臺應用系統(tǒng)包括商戶投放子系統(tǒng)和用戶消費子系統(tǒng),分別介紹了兩個子系統(tǒng)的核心代碼以及測試調(diào)用過程。

第14章介紹了新聞話題實時統(tǒng)計分析系統(tǒng)的開發(fā)核心思路和核心代碼以及啟動調(diào)用過程。

本書特色

(1)以實戰(zhàn)開發(fā)為導向,對基礎(chǔ)理論知識點與開發(fā)過程進行詳細講解。

(2)實戰(zhàn)案例豐富,涵蓋16 個完整項目案例和兩個綜合案例,綜合案例可以加深對本書所學的知識點的理解和掌握。

(3)代碼詳盡,避免對 API 的形式展示,規(guī)避重復代碼。

(4)語言簡明易懂,由淺入深帶領(lǐng)讀者學會以 Hadoop生態(tài)圈為核心的開發(fā)技術(shù)和大數(shù)據(jù)常見的機器學習算法。

配套資源

為便于教學,本書配有源代碼、數(shù)據(jù)集、安裝程序、教學大綱。

編輯推薦

16個完整的項目案例和兩個綜合案例,配有教學大綱等資源

讀者對象

本書主要面向廣大從事大數(shù)據(jù)分析、應用開發(fā)、機器學習、數(shù)據(jù)挖掘的專業(yè)人員以及從事高校信息技術(shù)專業(yè)的教師和高等院校的在讀學生及相關(guān)領(lǐng)域的廣大科研人員。


版權(quán)說明: 本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!


標簽: