You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: docs/vi/week01/01-2.md
+8-8Lines changed: 8 additions & 8 deletions
Original file line number
Diff line number
Diff line change
@@ -14,29 +14,29 @@ translator-date: 15 Oct 2020
14
14
15
15
Trong bộ não động vật, tế bào thần kinh phản ứng lại với các cạnh có định hướng cụ thể. Các nhóm tế bào thần kinh phản ứng lại với các định hướng giống nhau được sao chép trên toàn bộ trường thị giác.
16
16
17
-
Fukushima (1982) đã xây dựng một mạng lưới thần kinh (NN) hoạt động theo cách giống như bộ não, dựa trên 02 khai niệm. Đầu tiên, các tế bào thần kinh được tái tạo trên toàn bộ trường thị giác. Thức hai, có những ô phức tạp tập hợp thông tintừ các ô đơn giản (đơn vị chọn lọc định hướng). Kết quả là, sự dịch chuyển của bức tranh sẽ thay đổi sự hoạt hóa của các ô đơn giản, nhưng sẽ không ảnh hưởng đến sự kích hoạt tích hợp của ô phức tạp (tích hợp chập).
17
+
Fukushima (1982) đã xây dựng một mạng lưới thần kinh (NN) hoạt động theo cách giống như bộ não, dựa trên 02 khái niệm. Đầu tiên, các tế bào thần kinh được tái tạo trên toàn bộ trường thị giác. Thức hai, có những ô phức tạp tập hợp thông tin từ các ô đơn giản (đơn vị chọn lọc định hướng). Kết quả là, sự dịch chuyển của bức tranh sẽ thay đổi sự hoạt hóa của các ô đơn giản, nhưng sẽ không ảnh hưởng đến sự kích hoạt tích hợp của ô phức tạp (tích hợp chập).
18
18
19
-
LeCun (1990) đã sử dụng backprop để huấn luyện CNN nhận dạng các chữ viết tay. Có một bản thử nghiệm từ năm 1992, trong đó thuật toán nhận dạng các chữ số viết tay của bất kỳ kiểu nào. Thực hiện nhận dạng ký tự/ mẫu bằng cách sử dụng một mô hình được đào tạo từ đầu đến cuối là điều mới mẻ vào thời điểm đó. Trước đây, mọi người đã sử dụng trình trích xuất tính năng với mô hình được giám sát ở trên cùng.
19
+
LeCun (1990) đã sử dụng Backprop để huấn luyện CNN nhận dạng các chữ số viết tay. Có một bản thử nghiệm từ năm 1992, trong đó thuật toán nhận dạng các chữ số viết tay của bất kỳ kiểu nào. Thực hiện nhận dạng ký tự/ mẫu bằng cách sử dụng một mô hình được đào tạo từ đầu đến cuối là điều mới mẻ vào thời điểm đó. Trước đây, mọi người đã sử dụng trình trích xuất đặc trưng với mô hình được giám sát ở trên cùng.
20
20
21
21
Các hệ thống CNN mới này có thể nhận dạng nhiều ký tự trong ảnh cùng một lúc. Để làm điều đó, mọi người đã sử dụng một cửa sổ nhập liệu nhỏ cho CNN và trượt nó qua toàn bộ hình ảnh. Nếu nó được kích hoạt, nó có nghĩa là có một nhân vật cụ thể hiện diện.
22
22
23
-
Sau đó, ý tưởng này đã được áp dụng để phát hiện khuôn mặt / người và phân đoạn ngữ nghĩa (phân loại theo pixel). Ví dụ bao gồm Hadsell (2009) và Farabet (2012). Điều này cuối cùng đã trở nên phổ biến trong công nghiệp, được sử dụng trong các ứng dụng Xe tự lái như theo dõi làn đường.
23
+
Sau đó, ý tưởng này đã được áp dụng để phát hiện khuôn mặt người và phân đoạn ngữ nghĩa (phân loại theo pixel). Ví dụ bao gồm Hadsell (2009) và Farabet (2012). Điều này cuối cùng đã trở nên phổ biến trong công nghiệp, được sử dụng trong các ứng dụng Xe tự lái như theo dõi làn đường.
24
24
25
25
Các loại phần cứng đặc biệt để đào tạo CNN là một chủ đề nóng trong những năm 1980, sau đó sự quan tâm giảm xuống và bây giờ nó đã trở nên phổ biến trở lại.
26
26
27
-
Cuộc cách mạng học sâu (mặc dù thuật ngữ này chưa được sử dụng vào thời điểm đó) bắt đầu phổ biến vào năm 2010-2013. Các nhà nghiên cứu tập trung vào việc phát minh ra các thuật toán có thể giúp đào tạo các CNN lớn nhanh hơn. Krizhevsky (2012) đã đưa ra AlexNet, một CNN lớn hơn nhiều so với các CNN được sử dụng trước đây và đào tạo nó trên ImageNet (1,3 triệu mẫu) bằng cách sử dụng GPU. Sau khi chạy trong vài tuần, AlexNet đã đánh bại hiệu suất của các hệ thống cạnh tranh tốt nhất bằng một biên độ lớn - tỷ lệ lỗi top-5 là 25,8% so với 16,4%.
27
+
Cuộc cách mạng học sâu (mặc dù thuật ngữ này chưa được sử dụng vào thời điểm đó) bắt đầu phổ biến vào năm 2010 - 2013. Các nhà nghiên cứu tập trung vào việc phát minh ra các thuật toán có thể giúp đào tạo các CNN lớn nhanh hơn. Krizhevsky (2012) đã đưa ra AlexNet, một CNN lớn hơn nhiều so với các CNN được sử dụng trước đây và đào tạo nó trên ImageNet (1,3 triệu mẫu) bằng cách sử dụng GPU. Sau khi chạy trong vài tuần, AlexNet đã đánh bại hiệu suất của các hệ thống cạnh tranh tốt nhất bằng một biên độ lớn - tỷ lệ lỗi top-5 là 25,8% so với 16,4%.
28
28
29
-
Sau khi chứng kiến thành công của AlexNet, cộng đồng thị giác máy tính (CV) đã tin rằng CNN có tác dụng. Trong khi tất cả các bài báo từ năm 2011-2012 có đề cập đến CNN đều đã bị từ chối, kể từ năm 2016, hầu hết các bài báo CV được chấp nhận đều sử dụng CNN.
29
+
Sau khi chứng kiến thành công của AlexNet, cộng đồng thị giác máy tính (CV) đã tin rằng CNN có tác dụng. Trong khi tất cả các bài báo từ năm 2011 - 2012 có đề cập đến CNN đều đã bị từ chối, kể từ năm 2016, hầu hết các bài báo CV được chấp nhận đều sử dụng CNN.
30
30
31
31
Trong những năm qua, số lượng các lớp được sử dụng ngày càng tăng: LeNet - 7, AlexNet - 12, VGG - 19, ResNet - 50. Tuy nhiên, có một sự cân bằng giữa số lượng hoạt động cần thiết để tính toán đầu ra, kích thước của mô hình và độ chính xác của nó. Vì vậy, một chủ đề phổ biến hiện nay là làm thế nào để nén mạng làm cho việc tính toán nhanh hơn.
32
32
33
33
## [Học sâu và trích xuất đặc trưng](https://www.youtube.com/watch?v=0bMe_vCZo30&t=3955s)
34
34
35
35
Mạng đa lớp thành công vì chúng khai thác cấu trúc tổng hợp của dữ liệu tự nhiên. Trong cấu trúc phân cấp thành phần, sự kết hợp của các đối tượng tại một lớp trong cấu trúc phân cấp tạo thành các đối tượng ở lớp tiếp theo. Nếu chúng ta bắt chước hệ thống phân cấp này thành nhiều lớp và để mạng tìm hiểu sự kết hợp thích hợp của các đặc trưng, chúng ta sẽ có được cái gọi là kiến trúc Học sâu. Do đó, mạng Học sâu có bản chất là thứ bậc.
36
36
37
-
Kiến trúc học sâu đã dẫn đến một tiến bộ đáng kinh ngạc trong các nhiệm vụ thị giác máy tính, từ xác định và tạo mặt nạ chính xác xung quanh các đối tượng đến xác định các thuộc tính không gian của một đối tượng. Kiến trúc Mask-RCNN và RetinaNet chủ yếu dẫn đến cải tiến này.
37
+
Kiến trúc học sâu đã dẫn đến một tiến bộ đáng kinh ngạc trong các nhiệm vụ thị giác máy tính, từ xác định và tạo mặt nạ (mask) chính xác xung quanh các đối tượng đến xác định các thuộc tính không gian của một đối tượng. Kiến trúc Mask-RCNN và RetinaNet chủ yếu dẫn đến cải tiến này.
38
38
39
-
Các RCNN mặt nạ đã tìm thấy công dụng của chúng trong việc phân đoạn các đối tượng riêng lẻ, tức là tạo mặt nạ (mask) cho từng đối tượng trong một hình ảnh. Đầu vào và đầu ra đều là hình ảnh. Kiến trúc cũng có thể được sử dụng để phân đoạn cá thể, tức là xác định các đối tượng khác nhau của cùng một kiểu trong một hình ảnh. Detectron, một hệ thống phần mềm Nghiên cứu AI của Facebook (FAIR), thực hiện tất cả các thuật toán phát hiện đối tượng hiện đại này và là mã nguồn mở.
39
+
Các Mask-RCNN đã tìm thấy công dụng của chúng trong việc phân đoạn các đối tượng riêng lẻ, tức là tạo mặt nạ (mask) cho từng đối tượng trong một hình ảnh. Đầu vào và đầu ra đều là hình ảnh. Kiến trúc cũng có thể được sử dụng để phân đoạn cá thể, tức là xác định các đối tượng khác nhau của cùng một kiểu trong một hình ảnh. Detectron, một hệ thống phần mềm Nghiên cứu AI của Facebook (FAIR), thực hiện tất cả các thuật toán phát hiện đối tượng hiện đại này và là mã nguồn mở.
40
40
41
41
Một số ứng dụng thực tế của CNN là hỗ trợ Xe tự lái và phân tích hình ảnh y tế.
42
42
@@ -60,7 +60,7 @@ Do tính chất tổng hợp của dữ liệu, các đối tượng địa lý
60
60
61
61
## [Học đại diện](https://www.youtube.com/watch?v=0bMe_vCZo30&t=4767s)
62
62
63
-
Có những người bác bỏ Deep Learning: nếu chúng ta có thể tính gần đúng bất kỳ hàm nào có 2 lớp, tại sao lại có nhiều hơn?
63
+
Có những người bác bỏ học sâu: nếu chúng ta có thể tính gần đúng bất kỳ hàm nào có 2 lớp, tại sao lại có nhiều hơn?
64
64
65
65
Ví dụ: SVM tìm thấy một siêu phẳng phân tách "trong khoảng dữ liệu", có nghĩa là các dự đoán dựa trên so sánh với các ví dụ đào tạo. SVM về cơ bản là một mạng nơ-ron 2 lớp rất đơn giản, trong đó lớp đầu tiên xác định "mẫu" và lớp thứ hai là bộ phân loại tuyến tính. Vấn đề với ngụy biện 2 lớp là độ phức tạp và kích thước của lớp giữa là theo cấp số nhân $ N $ (để làm tốt một nhiệm vụ khó, cần RẤT NHIỀU mẫu). Nhưng nếu bạn mở rộng số lớp thành $ \ log (N) $, các lớp sẽ trở thành tuyến tính trong $ N $. Có sự đánh đổi giữa thời gian và không gian.
0 commit comments