Học sâu hay Thâm học (tiếng Anh: deep learning) là một chi của ngành máy học dựa trên một tập hợp các thuật toán để cố gắng mô hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến.
Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn. Một số đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên các giải thích của mô hình xử lý và truyền thông thông tin trong một hệ thống thần kinh, chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong não.
Các mạng neuron nhân tạo
Một số phương pháp học sâu thành công nhất là mạng neuron nhân tạo. Mạng neuron nhân tạo được lấy cảm hứng từ các mô hình sinh học năm 1959 được đề xuất bởi người đoạt giải Nobel David H. Hubel & Torsten Wiesel, 2 người đã tìm thấy hai loại tế bào trong vỏ não thị giác chính: các tế bào đơn giản vàcác tế bào phức tạp. Nhiều mạng neuron nhân tạo có thể được xem như là các mô hình ghép tầng của các tế bào loại lấy cảm hứng từ những quan sát sinh học.
Neocognitron của Fukushima giới thiệu các mạng neuron tích chập được đào tạo một phần bởi học không có giám sát với các đặc điểm được con người hướng dẫn trong mặt phẳng thần kinh. Yann LeCun…(1989) áp dụng truyền ngược có giám sát cho các kiến trúc như vậy. Weng… (1992) công bố các mạng neuron tích chập Cresceptron để nhậ dạng các đối tượng 3-D từ các hình ảnh có hậu trường lộn xộn và phân khúc của các đối tượng từ hình ảnh đó.
Một nhu cầu rõ ràng để nhận dạng các đối tượng 3-D nói chung là ít nhất là thay đổi tính bất biến và khả năng chịu biến dạng. Thăm dò Max (Max-pooling) xuất hiện lần đầu tiên được đề xuất bởi Cresceptron để kích hoạt mạng để chịu đựng được sự biến dạng từ nhỏ đến lớn theo một cách phân cấp, trong khi sử dụng tích chập. Thăm dò mã đã hoạt động tốt, nhưng không đảm bảo, dịch chuyển bất định ở mức điểm ảnh.
Ứng dụng
Nhận dạng tiếng nói tự động
Các kết quả hiển thị trong bảng dưới đây là nhận dạng tiếng nói tự động trên tập dữ liệu TIMIT phổ biến. Đây là một tập hợp dữ liệu phổ biến được sử dụng để đánh giá ban đầu các kiến trúc học sâu. Toàn bộ tập dữ liệu này có 630 người nói từ tám phương ngữ chính của tiếng Anh Mỹ, trong đó mỗi người đọc 10 câu. Kích thước nhỏ của nó cho phép nhiều cấu hình được thử nghiệp một cách hiệu quả. Quan trọng hơn, nhiệm vụ của TIMIT liên quan đến việc nhận dạng trình tự-điện thoại, trong đó, không giống như việc nhận dạng trình tự-từ, cho phép các “mô hình ngôn ngữ” rất yếu và do đó là điểm yếu trong mô hình hóa âm thanh trong các khía cạnh của nhận dạng giọng nói có thể được phân tích dễ dàng hơn. Các phân tích như vậy trên TIMIT bởi Li Deng và các cộng tác viên khoảng năm 2009-2010, tương phản với GMM (và các mô hình thể sinh khác của giọng nói) với cá mô hình DNN, kích thích đầu tư công nghiệp sớm vào học sâu cho nhận dạng giọng nói từ quy mô nhỏ cho đến quy mô lớn, cuối cùng dẫn đến việc sử dụng phổ biến và chi phối trong ngành công nghiệp đó. Phân tích đó được thực hiện với sự so sánh hiệu suất (ít hơn 1,5% tỷ lệ lỗi) giữa các DNN tách biệt và các mô hình thể sinh. Tỷ lệ lỗi được liệt kê dưới đây, bao gồm cả những kết quả ban đầu và tính theo phần trăm tỷ lệ lỗi điện thoại (cho mỗi), đã được tóm tắt trong một khoảng thời gian 20 năm qua:
Phương pháp | Tỷ lệ (%) |
---|---|
Khởi tạo ngẫu nhiên RNN | 26.1 |
Bayesian Triphone GMM-HMM | 25.6 |
Hidden Trajectory (Generative) Model | 24.8 |
Monophone Randomly Initialized DNN | 23.4 |
Monophone DBN-DNN | 22.4 |
Triphone GMM-HMM with BMMI Training | 21.7 |
Monophone DBN-DNN on fbank | 20.7 |
Convolutional DNN | 20.0 |
Convolutional DNN w. Heterogeneous Pooling | 18.7 |
Ensemble DNN/CNN/RNN | 18.2 |
Bidirectional LSTM | 17.9 |
Trong năm 2010, các nhà nghiên cứu công nghiệp đã mở rộng học sâu từ TIMIT để nhận dạng giọng nói với số lượng từ vựng lớn, bằng việc áp dụng các lớp sản lượng lớn DNN dựa trên các trạng thái HMM phụ thuộc vào ngữ cảnh được xây dựng bởi cây quyết định. Đánh giá toàn diện sự phát triển và tiến bộ này tới thời điểm năm 2014 là cuốn sách gần đây Springer từ Microsoft Research. Một bài báo đánh giá về nền tảng của nhận dạng giọng nói tự động và tác động của các mô hình máy học, bao gồm cả học sâu.
Một trong những nguyên tắc cơ bản của học sâu là để thoát khỏi kỹ thuật đặc tính thủ công và sử dụng các đặc tính thô. Nguyên tắc này được khám phá thành công đầu tiên trong kiến trúc của tự mã hóa sâu trên ảnh phổ “thô” hoặc các đặc điểm dãi lọc tuyến tính, hiển thị sự vượt trội của nó hơn các tính năng Mel-Cepstral mà có chứa một vài giai đoạn chuyển đổi cố định từ ảnh phổ. Các tính năng thực sự “thô” của tiếng nói, dạng sóng, gần đây đã được chỉ ra để tạo ra các kết quả nhận dạng giọng nói tuyệt vời ở quy mô lớn.
Kể từ khi ra mắt thành công ban đầu của DNN cho nhận dạng tiếng nói khoảng 2009-2011, tiến độ (và hướng đi trong tương lai) có thể được tóm tắt vào 8 lĩnh vực chính:
- Mở rộng quy mô lên/ra và tăng tốc quá trình đào tạo và giải mã DNN;
- Huấn luyện suy luận có trình tự cho các DNN;
- Xử lý đặc điểm bởi các mô hình sâu với sự hiểu biết vững chắc các cơ chế tiềm ẩn;
- Thích nghi của các DNN và các mô hình sâu có liên quan;
- Học đa tác vụ và học có chuyển giao bởi các DNN và các mô hình sâu liên quan; Các mạng neuron tích chập và làm thế nào để thiết kế chúng để khai thác tốt nhất kiến thức miền của giọng nói;
- Mạng neuron tái phát và các biến thể giàu LSTM;
- Các loại mô hình sâu bao gồm các mô hình dựa trên tensor và các mô hình tích hợp sâu thể sinh/suy xét.
Trường hợp nhận dạng tiếng nói tự động quy mô lớn lần đầu tiên và thuyết phục nhất thành công của học sâu trong lịch sử gần đây, chấp nhận bở cả công nghiệp và hàn lâm trong tất cả các lĩnh vực. Từ năm 2010 đến năm 2014, hai hội nghị lớn về xử lý tín hiệu và nhận dạng giọng nói, IEEE-ICASSP và Interspeech, đã thấy một sự gia tăng lớn các báo cáo được chấp nhận trong các báo cáo hội nghị thường niên tương ứng về chủ đề học sâu trong nhận dạng giọng nói. Quan trọng hơn, tất cả các hệ thống nhận dạng giọng nói thương mại chính (ví dụ: Microsoft Cortana, Xbox, Skype Translator, Google Now, Apple Siri, Baidu và iFlyTek tìm kiếm bằng giọng nói và một loạt các sản phẩm của Nuance speech, vv) được dựa trên phương pháp học sâu. Xem thêm các cuộc phỏng vấn trên phương tiện truyền thông với CTO của Nuance Communications.
Thành công lây lan rộng trong nhận dạng tiếng nói đã đạt được vào năm 2011 được kế tiếp liền sau đó là nhận dạng hình ảnh ở quy mô lớn.
Nhận dạng hình ảnh
Một tập đánh giá phổ biến cho phân loại hình ảnh là tập hợp dữ liệu cơ sở dữ liệu MNIST. MNIST bao gồm các chữ số viết tay và bao gồm 60000 ví dụ huấn luyện và 10000 ví dụ kiểm tra. Như TIMIT, kích thước nhỏ của nó cho phép nhiều cấu hình được kiểm tra. Một danh sách đầy đủ các kết quả trên tập này có thể được tìm thấy trong. Kết quả tốt nhất hiện nay trên MNIST là tỷ lệ lỗi 0,23%, đạt được bởi Ciresan và các cộng sự vào năm 2012.
Tác động thực sự của học sâu trong nhận dạng hình ảnh hoặc đối tượng, một chi chính của thị giác máy tính, đã cảm thấy được vào mùa thu năm 2012 sau khi đội của Geoff Hinton và sinh viên của ông thắng trong cuộc thi quy mô lớn ImageNet bởi một biên độ đáng kể bằng phương pháp máy học nông tiên tiến nhất. Công nghệ này dựa trên các mạng tích chập sâu 20 tuổi, nhưng với quy mô lớn hơn nhiều trên một nhiệm vụ lớn hơn nhiều, vì nó đã học được rằng học sâu làm việc tốt đối nhận dạng giọng nói quy mô lớn. Trong năm 2013 và 2014, tỷ lệ lỗi trong tác vụ của ImageNet bằng cách sử dụng học sâu tiếp tục giảm xuống nhanh chóng, theo một xu hướng tương tự trong nhận dạng giọng nói quy mô lớn.
Khi tham vọng này di chuyển từ nhận dạng giọng nói tự động sang các bản dịch giọng nói tự động và hiểu được, phân loại hình ảnh gần đây đã được mở rộng với nhiệm vụ khó khăn hơn đó là tạo phụ đề cho hình ảnh tự động, trong đó có học sâu là công nghệ cơ bản thiết yếu.
Một ứng dụng ví dụ là một máy tính xe hơi cho biết được đào tạo bằng học sâu, có thể cho phép xe diễn giải các hình ảnh 360° từ camera. Một ví dụ khác là công nghệ được gọi là Facial Dysmorphology Novel Analysis (FDNA) -(Phân tích các dị tật của khuôn mặt) sử dụng để phân tích các trường hợp dị dạng của con người kết nối với cơ sở dữ liệu lớn của các hội chứng di truyền.
Xử lý ngôn ngữ tự nhiên
Mạng neuron đã được sử dụng cho việc thực hiện các mô hình ngôn ngữ kể từ đầu những năm 2000. Các kỹ thuật quan trọng trong lĩnh vực này là lấy mẫu âm và nhúng chữ (word embedding). Nhúng chữ, chẳng hạn như word2vec, có thể được dùng như một lớp đại diện trong một kiến trúc học sâu, điều này sẽ biến đổi một từ đơn thành một đại diện vị trí của từ đó liên quan đến các từ khác trong bộ dữ liệu; vị trí được đại diện như là một điểm trong một không gian vector. Sử dụng một từ nhúng như là một lớp đầu vào với một mạng lưới thần kinh đệ quy (RNN-recursive neuron network) cho phép đào tạo mạng để phân tích cú pháp câu và cụm từ bằng cách sử dụng một ngữ pháp vector tổng hợp có hiệu quả. Một ngữ pháp vector tổng hợp có thể được coi làngữ pháp không phụ thuộc ngữ cảnh xác suất (PCFG-probabilistic context free grammar) được thực hiện bởi một mạng thần kinh đệ quy. Tự động-mã hóa đệ qui được xây dựng trên đỉnh từ nhúng đã được đào tạo để đánh giá câu tương tự và phát hiện các chú giải dài dòng. Các kiến trúc thần kinh sâu đã đạt được những kết quả tiên tiến nhất trong nhiều tác vụ xử lý ngôn ngữ tự nhiên như phân tích thống kê, phân tích tình cảm, tra cứu thông tin, dịch máy, liên kết thực thể ngữ cảnh, và.v.v.
Khám phá dược phẩm và độc chất học
Ngành công nghiệp dược phẩm phải đối mặt với vấn đề mà một tỷ lệ lớn các loại thuốc tiềm năng thất bại khi tiếp cận với thị trường. Những thất bại của các hợp chất hóa học này gây ra bởi không đủ hiệu quả trên mục tiêu phân tử sinh học (có hiệu lực với mục tiêu), có các tương tác không bị phát hiện và không mong muốn với các phân tử sinh học khác (chệch mục tiêu tác động), hoặc các hiệu ứng độc dược ngoài dự tính. Trong năm 2012, một nhóm dẫn đầu bởi George Dahl đã chiến thắng “Merck Molecular Activity Challenge” sử dụng các mạng neuron sâu đa tác vụ để dự đoán mục tiêu phân tử sinh học của một hợp chất. Trong năm 2014, nhóm của Sepp Hochreiter sử dụng học sâu để phát hiện ra mục tiêu lạ và các ảnh hưởng độc dược của các môi trường hóa chất trong các chất dinh dưỡng, sản phẩm gia dụng và thuốc men và đã chiến thắng “Tox21 Data Challenge” của NIH, FDA và NCATS. Những thành công ấn tượng chỉ ra rằng học sâu có thể vượt trội so với các phương pháp kiểm tra ảo khác. Các nhà nghiên cứu đến từ Google và Stanford đã mở rộng học sâu để khám phá dược phẩm bằng cách kết hợp dữ liệu từ nhiều nguồn khác nhau. Năm 2015, Atomwise giới thiệu AtomNet, mạng neuron học sâu đầu tiên dành cho thiết kế dược phẩm dựa trên cấu trúc hợp lý. Sau đó, AtomNet đã được sử dụng để dự đoán các phân tử sinh học được chọn mới lạ đối với nhiều mục tiêu bệnh tật, đặc biệt là phương pháp điều trị bệnh do virus Ebola và bệnh đa xơ cứng.
Quản lý quan hệ khách hàng (CRM)
Thành công gần đây đã được báo cáo với ứng dụng của học tăng cường sâu trong các thiết lập tiếp thị trực tiếp, thể hiện sự phù hợp của phương pháp này dành cho tự động hóa CRM. Một mạng nơ ron được sử dụng để ước tính giá trị của các hành động có thể trực tiếp tiếp thị trên không gian trạng thái khách hàng, được định nghĩa trong điều khoản của biến RFM. Hàm giá trị ước tính được chỉ ra để có một giải thích tự nhiên như là giá trị khách hàng suốt đời.
Các hệ thống khuyến cáo
Các hệ thống khuyến cáo đã sử dụng học sâu để trích xuất các đặc điểm sâu có ý nghĩa cho mô hình yếu tố tiềm ẩn đối với khuyến cáo dựa trên nội dung cho âm nhạc. Gần đây, một cách tiếp cận tổng quát hơn cho việc học tập sở thích người dùng từ nhiều miền bằng cách sử dụng học sâu đa góc nhìn đã được đưa ra. Mô hình này sử dụng một cộng tác lai và tiếp cận dựa trên nội dung và tăng cường các khuyến nghị trong nhiều nhiệm vụ.
Nguồn : Internet