Skip to content

Commit 5fb9fca

Browse files
Update 01-2.md (Atcold#709)
1 parent 16da123 commit 5fb9fca

File tree

1 file changed

+8
-8
lines changed

1 file changed

+8
-8
lines changed

docs/vi/week01/01-2.md

Lines changed: 8 additions & 8 deletions
Original file line numberDiff line numberDiff line change
@@ -14,29 +14,29 @@ translator-date: 15 Oct 2020
1414

1515
Trong bộ não động vật, tế bào thần kinh phản ứng lại với các cạnh có định hướng cụ thể. Các nhóm tế bào thần kinh phản ứng lại với các định hướng giống nhau được sao chép trên toàn bộ trường thị giác.
1616

17-
Fukushima (1982) đã xây dựng một mạng lưới thần kinh (NN) hoạt động theo cách giống như bộ não, dựa trên 02 khai niệm. Đầu tiên, các tế bào thần kinh được tái tạo trên toàn bộ trường thị giác. Thức hai, có những ô phức tạp tập hợp thông tintừ các ô đơn giản (đơn vị chọn lọc định hướng). Kết quả là, sự dịch chuyển của bức tranh sẽ thay đổi sự hoạt hóa của các ô đơn giản, nhưng sẽ không ảnh hưởng đến sự kích hoạt tích hợp của ô phức tạp (tích hợp chập).
17+
Fukushima (1982) đã xây dựng một mạng lưới thần kinh (NN) hoạt động theo cách giống như bộ não, dựa trên 02 khái niệm. Đầu tiên, các tế bào thần kinh được tái tạo trên toàn bộ trường thị giác. Thức hai, có những ô phức tạp tập hợp thông tin từ các ô đơn giản (đơn vị chọn lọc định hướng). Kết quả là, sự dịch chuyển của bức tranh sẽ thay đổi sự hoạt hóa của các ô đơn giản, nhưng sẽ không ảnh hưởng đến sự kích hoạt tích hợp của ô phức tạp (tích hợp chập).
1818

19-
LeCun (1990) đã sử dụng backprop để huấn luyện CNN nhận dạng các chữ viết tay. Có một bản thử nghiệm từ năm 1992, trong đó thuật toán nhận dạng các chữ số viết tay của bất kỳ kiểu nào. Thực hiện nhận dạng ký tự/ mẫu bằng cách sử dụng một mô hình được đào tạo từ đầu đến cuối là điều mới mẻ vào thời điểm đó. Trước đây, mọi người đã sử dụng trình trích xuất tính năng với mô hình được giám sát ở trên cùng.
19+
LeCun (1990) đã sử dụng Backprop để huấn luyện CNN nhận dạng các chữ số viết tay. Có một bản thử nghiệm từ năm 1992, trong đó thuật toán nhận dạng các chữ số viết tay của bất kỳ kiểu nào. Thực hiện nhận dạng ký tự/ mẫu bằng cách sử dụng một mô hình được đào tạo từ đầu đến cuối là điều mới mẻ vào thời điểm đó. Trước đây, mọi người đã sử dụng trình trích xuất đặc trưng với mô hình được giám sát ở trên cùng.
2020

2121
Các hệ thống CNN mới này có thể nhận dạng nhiều ký tự trong ảnh cùng một lúc. Để làm điều đó, mọi người đã sử dụng một cửa sổ nhập liệu nhỏ cho CNN và trượt nó qua toàn bộ hình ảnh. Nếu nó được kích hoạt, nó có nghĩa là có một nhân vật cụ thể hiện diện.
2222

23-
Sau đó, ý tưởng này đã được áp dụng để phát hiện khuôn mặt / người và phân đoạn ngữ nghĩa (phân loại theo pixel). Ví dụ bao gồm Hadsell (2009) và Farabet (2012). Điều này cuối cùng đã trở nên phổ biến trong công nghiệp, được sử dụng trong các ứng dụng Xe tự lái như theo dõi làn đường.
23+
Sau đó, ý tưởng này đã được áp dụng để phát hiện khuôn mặt người và phân đoạn ngữ nghĩa (phân loại theo pixel). Ví dụ bao gồm Hadsell (2009) và Farabet (2012). Điều này cuối cùng đã trở nên phổ biến trong công nghiệp, được sử dụng trong các ứng dụng Xe tự lái như theo dõi làn đường.
2424

2525
Các loại phần cứng đặc biệt để đào tạo CNN là một chủ đề nóng trong những năm 1980, sau đó sự quan tâm giảm xuống và bây giờ nó đã trở nên phổ biến trở lại.
2626

27-
Cuộc cách mạng học sâu (mặc dù thuật ngữ này chưa được sử dụng vào thời điểm đó) bắt đầu phổ biến vào năm 2010-2013. Các nhà nghiên cứu tập trung vào việc phát minh ra các thuật toán có thể giúp đào tạo các CNN lớn nhanh hơn. Krizhevsky (2012) đã đưa ra AlexNet, một CNN lớn hơn nhiều so với các CNN được sử dụng trước đây và đào tạo nó trên ImageNet (1,3 triệu mẫu) bằng cách sử dụng GPU. Sau khi chạy trong vài tuần, AlexNet đã đánh bại hiệu suất của các hệ thống cạnh tranh tốt nhất bằng một biên độ lớn - tỷ lệ lỗi top-5 là 25,8% so với 16,4%.
27+
Cuộc cách mạng học sâu (mặc dù thuật ngữ này chưa được sử dụng vào thời điểm đó) bắt đầu phổ biến vào năm 2010 - 2013. Các nhà nghiên cứu tập trung vào việc phát minh ra các thuật toán có thể giúp đào tạo các CNN lớn nhanh hơn. Krizhevsky (2012) đã đưa ra AlexNet, một CNN lớn hơn nhiều so với các CNN được sử dụng trước đây và đào tạo nó trên ImageNet (1,3 triệu mẫu) bằng cách sử dụng GPU. Sau khi chạy trong vài tuần, AlexNet đã đánh bại hiệu suất của các hệ thống cạnh tranh tốt nhất bằng một biên độ lớn - tỷ lệ lỗi top-5 là 25,8% so với 16,4%.
2828

29-
Sau khi chứng kiến ​​thành công của AlexNet, cộng đồng thị giác máy tính (CV) đã tin rằng CNN có tác dụng. Trong khi tất cả các bài báo từ năm 2011-2012 có đề cập đến CNN đều đã bị từ chối, kể từ năm 2016, hầu hết các bài báo CV được chấp nhận đều sử dụng CNN.
29+
Sau khi chứng kiến ​​thành công của AlexNet, cộng đồng thị giác máy tính (CV) đã tin rằng CNN có tác dụng. Trong khi tất cả các bài báo từ năm 2011 - 2012 có đề cập đến CNN đều đã bị từ chối, kể từ năm 2016, hầu hết các bài báo CV được chấp nhận đều sử dụng CNN.
3030

3131
Trong những năm qua, số lượng các lớp được sử dụng ngày càng tăng: LeNet - 7, AlexNet - 12, VGG - 19, ResNet - 50. Tuy nhiên, có một sự cân bằng giữa số lượng hoạt động cần thiết để tính toán đầu ra, kích thước của mô hình và độ chính xác của nó. Vì vậy, một chủ đề phổ biến hiện nay là làm thế nào để nén mạng làm cho việc tính toán nhanh hơn.
3232

3333
## [Học sâu và trích xuất đặc trưng](https://www.youtube.com/watch?v=0bMe_vCZo30&t=3955s)
3434

3535
Mạng đa lớp thành công vì chúng khai thác cấu trúc tổng hợp của dữ liệu tự nhiên. Trong cấu trúc phân cấp thành phần, sự kết hợp của các đối tượng tại một lớp trong cấu trúc phân cấp tạo thành các đối tượng ở lớp tiếp theo. Nếu chúng ta bắt chước hệ thống phân cấp này thành nhiều lớp và để mạng tìm hiểu sự kết hợp thích hợp của các đặc trưng, chúng ta sẽ có được cái gọi là kiến ​​trúc Học sâu. Do đó, mạng Học sâu có bản chất là thứ bậc.
3636

37-
Kiến trúc học sâu đã dẫn đến một tiến bộ đáng kinh ngạc trong các nhiệm vụ thị giác máy tính, từ xác định và tạo mặt nạ chính xác xung quanh các đối tượng đến xác định các thuộc tính không gian của một đối tượng. Kiến trúc Mask-RCNN và RetinaNet chủ yếu dẫn đến cải tiến này.
37+
Kiến trúc học sâu đã dẫn đến một tiến bộ đáng kinh ngạc trong các nhiệm vụ thị giác máy tính, từ xác định và tạo mặt nạ (mask) chính xác xung quanh các đối tượng đến xác định các thuộc tính không gian của một đối tượng. Kiến trúc Mask-RCNN và RetinaNet chủ yếu dẫn đến cải tiến này.
3838

39-
Các RCNN mặt nạ đã tìm thấy công dụng của chúng trong việc phân đoạn các đối tượng riêng lẻ, tức là tạo mặt nạ (mask) cho từng đối tượng trong một hình ảnh. Đầu vào và đầu ra đều là hình ảnh. Kiến trúc cũng có thể được sử dụng để phân đoạn cá thể, tức là xác định các đối tượng khác nhau của cùng một kiểu trong một hình ảnh. Detectron, một hệ thống phần mềm Nghiên cứu AI của Facebook (FAIR), thực hiện tất cả các thuật toán phát hiện đối tượng hiện đại này và là mã nguồn mở.
39+
Các Mask-RCNN đã tìm thấy công dụng của chúng trong việc phân đoạn các đối tượng riêng lẻ, tức là tạo mặt nạ (mask) cho từng đối tượng trong một hình ảnh. Đầu vào và đầu ra đều là hình ảnh. Kiến trúc cũng có thể được sử dụng để phân đoạn cá thể, tức là xác định các đối tượng khác nhau của cùng một kiểu trong một hình ảnh. Detectron, một hệ thống phần mềm Nghiên cứu AI của Facebook (FAIR), thực hiện tất cả các thuật toán phát hiện đối tượng hiện đại này và là mã nguồn mở.
4040

4141
Một số ứng dụng thực tế của CNN là hỗ trợ Xe tự lái và phân tích hình ảnh y tế.
4242

@@ -60,7 +60,7 @@ Do tính chất tổng hợp của dữ liệu, các đối tượng địa lý
6060

6161
## [Học đại diện](https://www.youtube.com/watch?v=0bMe_vCZo30&t=4767s)
6262

63-
Có những người bác bỏ Deep Learning: nếu chúng ta có thể tính gần đúng bất kỳ hàm nào có 2 lớp, tại sao lại có nhiều hơn?
63+
Có những người bác bỏ học sâu: nếu chúng ta có thể tính gần đúng bất kỳ hàm nào có 2 lớp, tại sao lại có nhiều hơn?
6464

6565
Ví dụ: SVM tìm thấy một siêu phẳng phân tách "trong khoảng dữ liệu", có nghĩa là các dự đoán dựa trên so sánh với các ví dụ đào tạo. SVM về cơ bản là một mạng nơ-ron 2 lớp rất đơn giản, trong đó lớp đầu tiên xác định "mẫu" và lớp thứ hai là bộ phân loại tuyến tính. Vấn đề với ngụy biện 2 lớp là độ phức tạp và kích thước của lớp giữa là theo cấp số nhân $ N $ (để làm tốt một nhiệm vụ khó, cần RẤT NHIỀU mẫu). Nhưng nếu bạn mở rộng số lớp thành $ \ log (N) $, các lớp sẽ trở thành tuyến tính trong $ N $. Có sự đánh đổi giữa thời gian và không gian.
6666

0 commit comments

Comments
 (0)