国产第1页_91在线亚洲_中文字幕成人_99久久久久久_五月宗合网_久久久久国产一区二区三区四区

讀書(shū)月攻略拿走直接抄!
歡迎光臨中圖網(wǎng) 請(qǐng) | 注冊(cè)
>
多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn)

包郵 多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn)

作者:薛棟 著
出版社:人民郵電出版社出版時(shí)間:2025-02-01
開(kāi)本: 16開(kāi) 頁(yè)數(shù): 359
中 圖 價(jià):¥82.4(7.5折) 定價(jià)  ¥109.8 登錄后可看到會(huì)員價(jià)
加入購(gòu)物車(chē) 收藏
開(kāi)年大促, 全場(chǎng)包郵
?新疆、西藏除外
本類(lèi)五星書(shū)更多>

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 版權(quán)信息

  • ISBN:9787115655387
  • 條形碼:9787115655387 ; 978-7-115-65538-7
  • 裝幀:平裝
  • 冊(cè)數(shù):暫無(wú)
  • 重量:暫無(wú)
  • 所屬分類(lèi):

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 本書(shū)特色

本書(shū)用三個(gè)案例講解多模態(tài)大模型的落地實(shí)踐



系統(tǒng)地講解了多模態(tài)技術(shù)的基礎(chǔ)理論、發(fā)展歷程及其廣泛的應(yīng)用場(chǎng)景,深入地介紹了圖像、文本、音頻和視頻等多模態(tài)數(shù)據(jù)的處理方法。



內(nèi)容涵蓋主流深度學(xué)習(xí)框架和多模態(tài)模型的核心原理,并配以實(shí)際開(kāi)發(fā)中的應(yīng)用案例與完整實(shí)例代碼。



詳細(xì)講解了多模態(tài)數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)和特征提取方法,系統(tǒng)地闡述了多模態(tài)表示學(xué)習(xí)的關(guān)鍵技術(shù),并提供全面的模型評(píng)估與驗(yàn)證方法。



通過(guò)實(shí)用案例介紹了多模態(tài)翻譯系統(tǒng)的開(kāi)發(fā)過(guò)程、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn),以及文生圖生成系統(tǒng)的設(shè)計(jì)思路,為讀者提供豐富的實(shí)戰(zhàn)案例與開(kāi)發(fā)指導(dǎo)。
本書(shū)用三個(gè)案例講解多模態(tài)大模型的落地實(shí)踐



系統(tǒng)地講解了多模態(tài)技術(shù)的基礎(chǔ)理論、發(fā)展歷程及其廣泛的應(yīng)用場(chǎng)景,深入地介紹了圖像、文本、音頻和視頻等多模態(tài)數(shù)據(jù)的處理方法。



內(nèi)容涵蓋主流深度學(xué)習(xí)框架和多模態(tài)模型的核心原理,并配以實(shí)際開(kāi)發(fā)中的應(yīng)用案例與完整實(shí)例代碼。



詳細(xì)講解了多模態(tài)數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)和特征提取方法,系統(tǒng)地闡述了多模態(tài)表示學(xué)習(xí)的關(guān)鍵技術(shù),并提供全面的模型評(píng)估與驗(yàn)證方法。



通過(guò)實(shí)用案例介紹了多模態(tài)翻譯系統(tǒng)的開(kāi)發(fā)過(guò)程、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)的實(shí)現(xiàn),以及文生圖生成系統(tǒng)的設(shè)計(jì)思路,為讀者提供豐富的實(shí)戰(zhàn)案例與開(kāi)發(fā)指導(dǎo)。



作者主導(dǎo)多個(gè)垂直領(lǐng)域的大模型項(xiàng)目,包括心理領(lǐng)域的MindChat(漫談)、醫(yī)療領(lǐng)域的 Sunsimiao(孫思邈)、教育領(lǐng)域的 GradChat(錦鯉),以及通用多模態(tài)大模型KarmaVLM(相生),所主持的 GitHub 項(xiàng)目累計(jì)獲得超過(guò) 4000 次 Star。

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 內(nèi)容簡(jiǎn)介

本書(shū)循序漸進(jìn)地闡述了多模態(tài)大模型的核心開(kāi)發(fā)技術(shù)與應(yīng)用實(shí)戰(zhàn)的知識(shí)。全書(shū)共10章,分別講解了多模態(tài)技術(shù)概述、多模態(tài)模型與框架、多模態(tài)數(shù)據(jù)處理、多模態(tài)表示學(xué)習(xí)、多模態(tài)嵌入表示、多模態(tài)大模型的訓(xùn)練、多模態(tài)大模型的評(píng)估與驗(yàn)證、基于多模態(tài)大模型的翻譯系統(tǒng)、基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng)、基于Diffusion Transformer的文生圖系統(tǒng)。全書(shū)簡(jiǎn)潔而不失技術(shù)深度,內(nèi)容豐富全面,案例翔實(shí),以通俗易懂的文字介紹了復(fù)雜的知識(shí)體系,易于閱讀,是學(xué)習(xí)多模態(tài)大模型開(kāi)發(fā)的實(shí)用教程。 本書(shū)適用于已經(jīng)了解了Python語(yǔ)言基礎(chǔ)語(yǔ)法,想進(jìn)一步學(xué)習(xí)大模型開(kāi)發(fā)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)處理、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)技術(shù)的讀者,還可以作為各類(lèi)院校相關(guān)專(zhuān)業(yè)師生的學(xué)習(xí)用書(shū)和培訓(xùn)學(xué)校的教材。

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 目錄

第 1 章 多模態(tài)技術(shù)概述 1

1.1 多模態(tài)技術(shù)簡(jiǎn)介 1

1.1.1 什么是多模態(tài) 1

1.1.2 多模態(tài)技術(shù)的發(fā)展歷史 2

1.1.3 多模態(tài)技術(shù)的應(yīng)用場(chǎng)景 3

1.2 多模態(tài)數(shù)據(jù)類(lèi)型 4

1.2.1 常見(jiàn)的多模態(tài)類(lèi)型 4

1.2.2 圖像數(shù)據(jù) 4

1.2.3 文本數(shù)據(jù) 5

1.2.4 音頻數(shù)據(jù) 5

1.2.5 視頻數(shù)據(jù) 6

1.3 多模態(tài)技術(shù)的基本原理 6

1.3.1 數(shù)據(jù)融合與對(duì)齊 6

1.3.2 多模態(tài)表示學(xué)習(xí) 7

1.3.3 多模態(tài)推理 8

第 2 章 多模態(tài)模型與框架 10

2.1 常用的深度學(xué)習(xí)框架 10

2.1.1 Tensor Flow 10

2.1.2 PyTorch 11

2.1.3 Keras 11

2.1.4 Transformer 12

2.2 多模態(tài)模型技術(shù) 13

2.2.1 ViLBERT 模型 13

2.2.2 VisualBERT 模型 14

2.2.3 OpenAI CLIP 模型 15

2.2.4 UNITER 模型 16

2.2.5 LXMERT 模型 17

2.2.6 SigLIP 模型 18

2.2.7 LoRA 微調(diào)技術(shù) 18

2.2.8 LLaVA 模型 18

2.3 預(yù)訓(xùn)練模型 19

2.3.1 預(yù)訓(xùn)練模型簡(jiǎn)介 19

2.3.2 使用預(yù)訓(xùn)練模型 20

2.3.3 預(yù)訓(xùn)練模型的微調(diào) 24

第 3 章 多模態(tài)數(shù)據(jù)處理 28

3.1 數(shù)據(jù)預(yù)處理 28

3.1.1 文本預(yù)處理 28

3.1.2 圖像預(yù)處理 39

3.1.3 音頻預(yù)處理 43

3.1.4 視頻預(yù)處理 50

3.2 數(shù)據(jù)增強(qiáng) 51

3.2.1 文本數(shù)據(jù)增強(qiáng) 51

3.2.2 圖像數(shù)據(jù)增強(qiáng) 54

3.2.3 音頻數(shù)據(jù)增強(qiáng) 55

3.2.4 視頻數(shù)據(jù)增強(qiáng) 57

3.3 特征提取 59

3.3.1 特征在大模型中的關(guān)鍵作用 60

3.3.2 文本特征提取 60

3.3.3 圖像特征提取 64

3.3.4 音頻特征提取 67

3.3.5 視頻特征提取 68

第 4 章 多模態(tài)表示學(xué)習(xí) 71

4.1 多模態(tài)表示學(xué)習(xí)介紹 71

4.1.1 多模態(tài)表示學(xué)習(xí)簡(jiǎn)介 71

4.1.2 多模態(tài)表示學(xué)習(xí)的主要方法 71

4.2 多模態(tài)表示學(xué)習(xí)方法 72

4.2.1 表示融合 72

4.2.2 聯(lián)合學(xué)習(xí) 76

4.2.3 表示對(duì)齊 79

4.2.4 模態(tài)間關(guān)系建模 83

4.3 基于 S3D MIL-NCE 的多模態(tài)文本到視頻檢索 86

4.3.1 項(xiàng)目介紹 86

4.3.2 準(zhǔn)備工作 87

4.3.3 視頻加載和可視化 87

4.3.4 加載視頻并定義文本查詢(xún) 89

4.3.5 預(yù)處理視頻和查詢(xún) 90

4.3.6 展示結(jié)果 90

第 5 章 多模態(tài)嵌入模式 92

5.1 多模態(tài)嵌入基礎(chǔ) 92

5.1.1 多模態(tài)嵌入介紹 92

5.1.2 多模態(tài)嵌入的應(yīng)用 92

5.2 圖像嵌入 93

5.2.1 圖像嵌入介紹 93

5.2.2 圖像特征提取 94

5.2.3 模態(tài)對(duì)齊 97

5.2.4 CLIP 模型 100

5.3 文本嵌入 101

5.3.1 多模態(tài)模型中的文本嵌入 101

5.3.2 基于 CLIP 模型的文本嵌入 103

5.4 音頻嵌入 105

5.4.1 音頻特征提取 105

5.4.2 常用音頻嵌入模型 107

5.5 多模態(tài)圖像搜索引擎 109

5.5.1 項(xiàng)目介紹 109

5.5.2 CLIP 模型的配置參數(shù) 110

5.5.3 數(shù)據(jù)集處理 111

5.5.4 實(shí)現(xiàn) Bangla CLIP 模型 115

5.5.5 基于文本的圖像搜索 117

5.5.6 基于 Streamlit 的 Web客戶(hù)端 118

第 6 章 多模態(tài)大模型的訓(xùn)練 121

6.1 模型訓(xùn)練的過(guò)程 121

6.2 訓(xùn)練策略 122

6.2.1 預(yù)訓(xùn)練與微調(diào) 122

6.2.2 多任務(wù)學(xué)習(xí) 125

6.2.3 全量微調(diào) 127

6.2.4 對(duì)比學(xué)習(xí) 129

6.2.5 參數(shù)高效微調(diào) 131

6.2.6 遷移學(xué)習(xí) 133

6.2.7 人類(lèi)反饋強(qiáng)化學(xué)習(xí) 135

6.2.8 動(dòng)態(tài)學(xué)習(xí)率調(diào)整 137

6.2.9 SFT 微調(diào) 138

6.3 CLIP 模型訓(xùn)練與微調(diào) 141

6.3.1 項(xiàng)目介紹 141

6.3.2 創(chuàng)建文本和圖像配對(duì)數(shù)據(jù)集 142

6.3.3 構(gòu)建多模態(tài)模型 145

6.3.4 訓(xùn)練模型 161

6.3.5 模型微調(diào) 162

6.3.6 調(diào)試運(yùn) 162

第 7 章 多模態(tài)大模型的評(píng)估與驗(yàn)證 164

7.1 模型評(píng)估 164

7.1.1 模型評(píng)估的必要性 164

7.1.2 評(píng)估指標(biāo) 165

7.1.3 單模態(tài)性能評(píng)估 168

7.1.4 多模態(tài)融合性能評(píng)估 170

7.1.5 效率與資源使用 171

7.1.6 定性評(píng)估和復(fù)雜場(chǎng)景評(píng)估 172

7.1.7 語(yǔ)音命令識(shí)別系統(tǒng) 173

7.2 模型驗(yàn)證 183

7.2.1 模型驗(yàn)證的必要性 183

7.2.2 數(shù)據(jù)準(zhǔn)備和分割 184

7.2.3 交叉驗(yàn)證 185

7.2.4 嵌套交叉驗(yàn)證 188

7.2.5 模態(tài)間一致性驗(yàn)證 189

7.2.6 模型魯棒性驗(yàn)證 190

7.2.7 驗(yàn)證指標(biāo) 192

7.3 多模態(tài)大模型評(píng)估基準(zhǔn) 195

7.3.1 MM-Vet 195

7.3.2 MMEvalPro 196

7.3.3 MMT-Bench 197

7.4 CLIP 模型的增強(qiáng)訓(xùn)練與評(píng)估 197

7.4.1 項(xiàng)目介紹 197

7.4.2 定義數(shù)據(jù)集 198

7.4.3 創(chuàng)建模型 201

7.4.4 分詞器 207

7.4.5 損失函數(shù) 209

7.4.6 模型訓(xùn)練 210

7.4.7 模型評(píng)估 218

7.4.8 文本重寫(xiě) 221

第 8 章 基于多模態(tài)大模型的翻譯系統(tǒng) 225

8.1 背景介紹 225

8.2 系統(tǒng)分析 225

8.2.1 系統(tǒng)需求分析 225

8.2.2 技術(shù)架構(gòu)分析 226

8.2.3 項(xiàng)目介紹 226

8.3 準(zhǔn)備數(shù)據(jù)集 227

8.3.1 Multi30k 數(shù)據(jù)集介紹 227

8.3.2 下載 Multi30k 數(shù)據(jù)集 227

8.3.3 下載 WIT 數(shù)據(jù)集中的圖像數(shù)據(jù) 229

8.4 數(shù)據(jù)集處理 230

8.4.1 PyTorch 數(shù)據(jù)集類(lèi) 230

8.4.2 數(shù)據(jù)處理和后處理 233

8.4.3 數(shù)據(jù)集填充 236

8.4.4 獲取 Multi30k 數(shù)據(jù)集的數(shù)據(jù) 237

8.4.5 獲取 WIT 數(shù)據(jù)集的數(shù)據(jù) 239

8.4.6 獲取 WMT 數(shù)據(jù)集的文本數(shù)據(jù) 241

8.5 多模態(tài)大模型 243

8.5.1 功能函數(shù) 243

8.5.2 適配器模型 244

8.5.3 獲取文本輸入的嵌入表示 245

8.5.4 多模態(tài)模型類(lèi) 246

8.5.5 多模態(tài)文本生成任務(wù)模型 247

8.5.6 分布式訓(xùn)練 248

8.5.7 模型訓(xùn)練和測(cè)試 250

8.5.8 主程序 253

第 9 章 基于多模態(tài)大模型的音視頻廣義零樣本學(xué)習(xí)系統(tǒng) 256

9.1 背景介紹 256

9.2 系統(tǒng)分析 256

9.2.1 系統(tǒng)需求分析 256

9.2.2 功能分析 257

9.3 系統(tǒng)配置 258

9.3.1 命令行接口 258

9.3.2 數(shù)據(jù)集處理 260

9.3.3 輔助函數(shù) 267

9.4 特征提取 275

9.4.1 從 ActivityNet 數(shù)據(jù)集提取特征 275

9.4.2 從 UCF101 數(shù)據(jù)集提取特征 278

9.4.3 從 VGGSound 數(shù)據(jù)集提取特征 280

9.5 多模態(tài)模型 283

9.5.1 多模態(tài)數(shù)據(jù)學(xué)習(xí)模型 283

9.5.2 性能評(píng)估指標(biāo) 289

9.5.3 模型優(yōu)化器 295

9.5.4 模型訓(xùn)練和驗(yàn)證 296

9.5.5 模型的評(píng)估 300

9.5.6 主文件 302

9.6 調(diào)試運(yùn)行 307

第 10 章 基于 Diffusion Transformer 的文生圖系統(tǒng) 310

10.1 Diffusion Transformer 介紹 310

10.1.1 Diffusion Transformer 的特點(diǎn) 310

10.1.2 Stable Diffusion 和 DiffusionTransformer 的區(qū)別和聯(lián)系 310

10.2 項(xiàng)目介紹 311

10.3 準(zhǔn)備預(yù)訓(xùn)練模型 312

10.4 擴(kuò)散模型核心模塊 313

10.4.1 計(jì)算高斯分布概率 313

10.4.2 實(shí)現(xiàn)擴(kuò)散模型 314

10.4.3 模型擴(kuò)展 328

10.4.4 采樣器調(diào)度 330

10.5 訓(xùn)練模型 333

10.5.1 定義不同配置的 DiT模型 333

10.5.2 *小訓(xùn)練腳本 341

10.5.3 實(shí)現(xiàn) DiT 模型 343

10.5.4 DiT 模型的標(biāo)準(zhǔn)訓(xùn)練 344

10.5.5 DiT 模型的全精度訓(xùn)練 347

10.5.6 DiT 模型的特征預(yù)訓(xùn)練 352

10.5.7 DiT 模型的特原始訓(xùn)練 352

10.5.8 DiT 模型的禁用 TF32 模式訓(xùn)練 352

10.6 生成圖像 353

10.6.1 預(yù)訓(xùn)練生成 353

10.6.2 基于 DDP 的圖像生成 354

10.7 調(diào)試運(yùn)行 357
展開(kāi)全部

多模態(tài)大模型技術(shù)與開(kāi)發(fā)實(shí)戰(zhàn) 作者簡(jiǎn)介

薛棟,華東理工大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授/碩士生導(dǎo)師,德國(guó)慕尼黑工業(yè)大學(xué)工學(xué)博士,“上海市高層次青年人才計(jì)劃”、“浦江人才計(jì)劃”、華理“青年英才培育計(jì)劃”獲得者。長(zhǎng)期從事基于人工智能與大數(shù)據(jù)相關(guān)研究,其中包括自然語(yǔ)言處理與大語(yǔ)言模型、工業(yè)互聯(lián)網(wǎng)與工業(yè)軟件、復(fù)雜網(wǎng)絡(luò)與多智能體系統(tǒng)等課題。主導(dǎo)多個(gè)垂直領(lǐng)域的大模型項(xiàng)目,包括心理領(lǐng)域的MindChat(漫談)、醫(yī)療領(lǐng)域的 Sunsimiao(孫思邈)、教育領(lǐng)域的 GradChat(錦鯉),以及通用多模態(tài)大模型KarmaVLM(相生),所主持的 GitHub 項(xiàng)目累計(jì)獲得超過(guò) 4000 次 Star。

暫無(wú)評(píng)論……
書(shū)友推薦
本類(lèi)暢銷(xiāo)
返回頂部
中圖網(wǎng)
在線客服
主站蜘蛛池模板: 国产一级毛片大陆 | 国内精品一级毛片免费看 | 国内高清久久久久久 | 久久精品美乳 | 精精国产xxxx视频在线 | 亚洲自拍偷拍在线观看 | 国产97公开成人免费视频 | 亚洲国产美女视频 | 亚洲高清一区二区三区 | 日本大胆一区免费视频 | 国产成人av电影在线观看第一页 | 国产精品视频免费看 | 欧美日韩生活片 | 国产免国产免费 | 日韩永久免费进入2015 | dxj久久成国产精品 dy888午夜国产精品不卡 | 亚洲丰满熟女一区二区哦 | 日韩一级片免费看 | 五十路熟妇高熟无码视频 | www国产亚洲精品 | 亚洲国产成人91精品 | 护士人妻hd中文字幕 | 国产成人免费ā片在线观看 | 国产视频高清在线 | 特一级毛片 | 日日干夜夜操高清视频 | 日本精品一区 | 国产白虎 | 欧美牲交a欧美牲交aⅴ一 | 亚洲国产精品婷婷久久久久 | 国产精品久久久久久久久免费 | 亚洲av无码一区二区二三区软件 | 国产亚洲精品一区二区 | 天天做天天爱天天综合网 | 亚洲国产成人精品小蝌蚪 | 久久6免费视频 | 久久青 | 国产夫妇肉麻对白 | 九九热在线免费视频 | 一区二区视频在线免费观看 | 亚洲人成人网站在线观看 |