
Learning Deep Learning: Theory and Practice of Neural Networks, Computer Vision, Natural Language Processing, and Transformers Using TensorFlow, 1st edition
BRAND: PEARSON
eBook edition. 1 Year Subscription. Dành cho Cá nhân | Trường ĐH, Nhóm, Thư Viện: Gọi 0915920514 để báo giá Pearson, Vital Source eBook hoặc mua Sách In
Tổng quan sách
Hướng dẫn đầy đủ màu sắc của NVIDIA về học sâu: Tất cả học sinh cần bắt đầu và nhận được kết quảHọc sâu Học sâu là hướng dẫn đầy đủ về DL. Làm sáng tỏ cả các khái niệm cốt lõi và các kỹ thuật lập trình thực hành cần thiết để thành công, văn bản này có thể được sử dụng cho những sinh viên đã có kinh nghiệm lập trình trước đó nhưng chưa có kinh nghiệm thống kê hoặc học máy trước đó.Sau khi giới thiệu các khối xây dựng thiết yếu của mạng nơ-ron sâu, chẳng hạn như nơ-ron nhân tạo và các lớp kết nối đầy đủ, tích chập và tái diễn, Ekman cho thấy cách sử dụng chúng để xây dựng các kiến trúc tiên tiến, bao gồm cả Máy biến áp. Ông mô tả cách sử dụng những khái niệm này để xây dựng các mạng hiện đại cho thị giác máy tính và xử lý ngôn ngữ tự nhiên (NLP), bao gồm Mask R-CNN, GPT và BERT. Và anh ấy giải thích về một trình dịch ngôn ngữ tự nhiên và một hệ thống tạo ra các mô tả bằng ngôn ngữ tự nhiên cho hình ảnh.Xuyên suốt, Ekman cung cấp các ví dụ mã ngắn gọn, được chú thích rõ ràng bằng cách sử dụng TensorFlow với Keras. Các ví dụ PyTorch tương ứng được cung cấp trực tuyến và do đó cuốn sách bao gồm hai thư viện Python phổ biến dành cho DL được sử dụng trong công nghiệp và học viện. Ông kết thúc bằng phần giới thiệu về tìm kiếm kiến trúc thần kinh (NAS), khám phá các vấn đề đạo đức quan trọng và cung cấp tài nguyên để học thêm.Khám phá và nắm vững các khái niệm cốt lõi: perceptron, học tập dựa trên độ dốc, nơ-ron sigmoid và lan truyền ngượcXem cách các khung DL giúp phát triển các mạng thần kinh phức tạp và hữu ích hơn dễ dàng hơnKhám phá cách mạng nơ ron tích chập (CNN) cách mạng hóa việc phân loại và phân tích hình ảnhÁp dụng mạng thần kinh tái phát (RNN) và bộ nhớ ngắn hạn dài (LSTM) cho văn bản và các chuỗi có độ dài thay đổi khácLàm chủ NLP với các mạng tuần tự và kiến trúc TransformerXây dựng ứng dụng dịch ngôn ngữ tự nhiên và tạo chú thích hình ảnh
- Foreword by Dr. Anima Anandkumar xxiForeword by Dr. Craig Clawson xxiiiPreface xxvAcknowledgments liAbout the Author liii
- Chapter 1: The Rosenblatt Perceptron 1Example of a Two-Input Perceptron 4The Perceptron Learning Algorithm 7Limitations of the Perceptron 15Combining Multiple Perceptrons 17Implementing Perceptrons with Linear Algebra 20Geometric Interpretation of the Perceptron 30Understanding the Bias Term 33Concluding Remarks on the Perceptron 34
- Chapter 2: Gradient-Based Learning 37Intuitive Explanation of the Perceptron Learning Algorithm 37Derivatives and Optimization Problems 41Solving a Learning Problem with Gradient Descent 44Constants and Variables in a Network 48Analytic Explanation of the Perceptron Learning Algorithm 49Geometric Description of the Perceptron Learning Algorithm 51Revisiting Different Types of Perceptron Plots 52Using a Perceptron to Identify Patterns 54Concluding Remarks on Gradient-Based Learning 57
- Chapter 3: Sigmoid Neurons and Backpropagation 59Modified Neurons to Enable Gradient Descent for Multilevel Networks 60Which Activation Function Should We Use? 66Function Composition and the Chain Rule 67Using Backpropagation to Compute the Gradient 69Backpropagation with Multiple Neurons per Layer 81Programming Example: Learning the XOR Function 82Network Architectures 87Concluding Remarks on Backpropagation 89
- Chapter 4: Fully Connected Networks Applied to Multiclass Classification 91Introduction to Datasets Used When Training Networks 92Training and Inference 100Extending the Network and Learning Algorithm to Do Multiclass Classification 101Network for Digit Classification 102Loss Function for Multiclass Classification 103Programming Example: Classifying Handwritten Digits 104Mini-Batch Gradient Descent 114Concluding Remarks on Multiclass Classification 115
- Chapter 5: Toward DL: Frameworks and Network Tweaks 117Programming Example: Moving to a DL Framework 118The Problem of Saturated Neurons and Vanishing Gradients 124Initialization and Normalization Techniques to Avoid Saturated Neurons 126Cross-Entropy Loss Function to Mitigate Effect of Saturated Output Neurons 130Different Activation Functions to Avoid Vanishing Gradient in Hidden Layers 136Variations on Gradient Descent to Improve Learning 141Experiment: Tweaking Network and Learning Parameters 143Hyperparameter Tuning and Cross-Validation 146Concluding Remarks on the Path Toward Deep Learning 150
- Chapter 6: Fully Connected Networks Applied to Regression 153Output Units 154The Boston Housing Dataset 160Programming Example: Predicting House Prices with a DNN 161Improving Generalization with Regularization 166Experiment: Deeper and Regularized Models for House Price Prediction 169Concluding Remarks on Output Units and Regression Problems 170
- Chapter 7: Convolutional Neural Networks Applied to Image Classification 171The CIFAR-10 Dataset 173Characteristics and Building Blocks for Convolutional Layers 175Combining Feature Maps into a Convolutional Layer 180Combining Convolutional and Fully Connected Layers into a Network 181Effects of Sparse Connections and Weight Sharing 185Programming Example: Image Classification with a Convolutional Network 190Concluding Remarks on Convolutional Networks 201
- Chapter 8: Deeper CNNs and Pretrained Models 205VGGNet 206GoogLeNet 210ResNet 215Programming Example: Use a Pretrained ResNet Implementation 223Transfer Learning 226Backpropagation for CNN and Pooling 228Data Augmentation as a Regularization Technique 229Mistakes Made by CNNs 231Reducing Parameters with Depthwise Separable Convolutions 232Striking the Right Network Design Balance with EfficientNet 234Concluding Remarks on Deeper CNNs 235
- Chapter 9: Predicting Time Sequences with Recurrent Neural Networks 237Limitations of Feedforward Networks 241Recurrent Neural Networks 242Mathematical Representation of a Recurrent Layer 243Combining Layers into an RNN 245Alternative View of RNN and Unrolling in Time 246Backpropagation Through Time 248Programming Example: Forecasting Book Sales 250Dataset Considerations for RNNs 264Concluding Remarks on RNNs 265
- Chapter 10: Long Short-Term Memory 267Keeping Gradients Healthy 267Introduction to LSTM 272LSTM Activation Functions 277Creating a Network of LSTM Cells 278Alternative View of LSTM 280Related Topics: Highway Networks and Skip Connections 282Concluding Remarks on LSTM 282
- Chapter 11: Text Autocompletion with LSTM and Beam Search 285Encoding Text 285Longer-Term Prediction and Autoregressive Models 287Beam Search 289Programming Example: Using LSTM for Text Autocompletion 291Bidirectional RNNs 298Different Combinations of Input and Output Sequences 300Concluding Remarks on Text Autocompletion with LSTM 302
- Chapter 12: Neural Language Models and Word Embeddings 303Introduction to Language Models and Their Use Cases 304Examples of Different Language Models 307Benefit of Word Embeddings and Insight into How They Work 313Word Embeddings Created by Neural Language Models 315Programming Example: Neural Language Model and Resulting Embeddings 319King − Man + Woman! = Queen 329King − Man + Woman ! = Queen 331Language Models, Word Embeddings, and Human Biases 332Related Topic: Sentiment Analysis of Text 334Concluding Remarks on Language Models and Word Embeddings 342
- Chapter 13: Word Embeddings from word2vec and GloVe 343Using word2vec to Create Word Embeddings Without a Language Model 344Additional Thoughts on word2vec 352word2vec in Matrix Form 353Wrapping Up word2vec 354Programming Example: Exploring Properties of GloVe Embeddings 356Concluding Remarks on word2vec and GloVe 361
- Chapter 14: Sequence-to-Sequence Networks and Natural Language Translation 363Encoder-Decoder Model for Sequence-to-Sequence Learning 366Introduction to the Keras Functional API 368Programming Example: Neural Machine Translation 371Experimental Results 387Properties of the Intermediate Representation 389Concluding Remarks on Language Translation 391
- Chapter 15: Attention and the Transformer 393Rationale Behind Attention 394Attention in Sequence-to-Sequence Networks 395Alternatives to Recurrent Networks 406Self-Attention 407Multi-head Attention 410The Transformer 411Concluding Remarks on the Transformer 415
- Chapter 16: One-to-Many Network for Image Captioning 417Extending the Image Captioning Network with Attention 420Programming Example: Attention-Based Image Captioning 421Concluding Remarks on Image Captioning 443
- Chapter 17: Medley of Additional Topics 447Autoencoders 448Multimodal Learning 459Multitask Learning 469Process for Tuning a Network 477Neural Architecture Search 482Concluding Remarks 502
- Chapter 18: Summary and Next Steps 503Things You Should Know by Now 503Ethical AI and Data Ethics 505Things You Do Not Yet Know 512Next Steps 516Appendix A: Linear Regression and Linear Classifiers 519Linear Regression as a Machine Learning Algorithm 519Computing Linear Regression Coefficients 523Classification with Logistic Regression 525Classifying XOR with a Linear Classifier 528Classification with Support Vector Machines 531Evaluation Metrics for a Binary Classifier 533Appendix B: Object Detection and Segmentation 539Object Detection 540Semantic Segmentation 549Instance Segmentation with Mask R-CNN 559Appendix C: Word Embeddings Beyond word2vec and GloVe 563Wordpieces 564FastText 566Character-Based Method 567ELMo 572Related Work 575Appendix D: GPT, BERT, AND RoBERTa 577GPT 578BERT 582RoBERTa 586Historical Work Leading Up to GPT and BERT 588Other Models Based on the Transformer 590Appendix E: Newton-Raphson versus Gradient Descent 593Newton-Raphson Root-Finding Method 594Relationship Between Newton-Raphson and Gradient Descent 597Appendix F: Matrix Implementation of Digit Classification Network 599Single Matrix 599Mini-Batch Implementation 602Appendix G: Relating Convolutional Layers to Mathematical Convolution 607Appendix H: Gated Recurrent Units 613Alternative GRU Implementation 616Network Based on the GRU 616Appendix I: Setting up a Development Environment 621Python 622Programming Environment 623Programming Examples 624Datasets 625Installing a DL Framework 628TensorFlow Specific Considerations 630Key Differences Between PyTorch and TensorFlow 631Appendix J: Cheat Sheets 637Works Cited 647Index 667