Lidar trong phân loại cây trồng từ dữ liệu kết hợp và máy học (machine learning)
13/08/2021
Mới đây nghiên cứu đã tạo ra các bản đồ loại cây trồng bằng lidar, Sentinel-2 và dữ liệu ảnh hàng không cùng với một số thuật toán phân loại machine learning để phân biệt bốn loại cây trồng trong một khu vực canh tác thâm canh. Các bản đồ loại cây trồng thường được thành lập sử dụng dữ liệu cảm nhận từ xa có được bởi các cảm biến được gắn trên vệ tinh, máy bay có người lái hoặc máy bay không người lái (UAV hoặc 'máy bay không người lái'), phổ biến nhất là cảm biến đa năng được gắn trên vệ tinh. Cảm biến đa năng trên hàng không được sử dụng thường xuyên hơn trong đó hình ảnh có độ phân giải không gian rất cao là bắt buộc. Tuy nhiên, việc sử dụng dữ liệu Lidar để thành lập bản đồ loại cây trồng vẫn chưa phổ biến.

Lợi ích của quét laser hàng không trong canh tác trồng trọt

Mới đây nghiên cứu đã tạo ra các bản đồ loại cây trồng bằng lidar, Sentinel-2 và dữ liệu ảnh hàng không cùng với một số thuật toán phân loại machine learning để phân biệt bốn loại cây trồng trong một khu vực canh tác thâm canh. Các bản đồ loại cây trồng thường được thành lập sử dụng dữ liệu cảm nhận từ xa có được bởi các cảm biến được gắn trên vệ tinh, máy bay có người lái hoặc máy bay không người lái (UAV hoặc 'máy bay không người lái'), phổ biến nhất là cảm biến đa năng được gắn trên vệ tinh. Cảm biến đa năng trên hàng không được sử dụng thường xuyên hơn trong đó hình ảnh có độ phân giải không gian rất cao là bắt buộc. Tuy nhiên, việc sử dụng dữ liệu Lidar để thành lập bản đồ loại cây trồng vẫn chưa phổ biến.

Dữ liệu Lidar đang trở nên phổ biến hơn bao giờ hết khi nhiều cuộc khảo sát về dữ liệu hàng không  được tiến hành, cảm biến UAV-Lidar đang trở nên phổ biến hơn và các vệ tinh quan sát trái đất đang được trang bị cảm biến Lidar. Thành lập bản đồ loại cây trồng có thể được lợi từ các nguồn dữ liệu Lidar mới này, đặc biệt là khi kết hợp với ảnh quang học độ phân giải cao, đa năng và đa thời gian như được cung cấp bởi vệ tinh Sentinel-2. Sự kết hợp giữa dữ liệu Lidar và ảnh quang học có thể cảnh báo tốt cho ngành nông nghiệp khi được sử dụng để tạo ra các phân loại loại cây trồng chính xác hơn.

Lidar thường được sử dụng trong viễn thám để thu thập thông tin độ cao bề mặt sử dụng đám mây điểm 3D hoặc bằng nội suy mô hình số bề mặt (DSM) hoặc mô hình số địa hình (DTM). Từ DSM và DTM, một DSM chuẩn hóa (nDSM), hoặc mô hình chiều cao tán (CHM), có thể được bắt nguồn bằng cách trừ DTM với DSM. Các phương pháp ảnh cũng có thể được sử dụng để tạo DSM. Tuy nhiên, Lidar có thể xuyên qua tán cây và có được thông tin độ cao chính xác của địa hình bên dưới và lần lượt được sử dụng để tạo DTM và sau đó là nDSM. Bên cạnh thông tin chiều cao, Lidar cũng cung cấp thông tin cường độ trả lại có thể được sử dụng để phân biệt giữa các lớp phủ khác nhau. Ví dụ, nước có cường độ thấp, trong khi cường độ từ thảm thực vật cao.

Khu vực nghiên cứu tại Nam Phi

Trong nghiên cứu gần đây, chương trình tưới tiêu Vaalharts nằm ở tỉnh Bắc Cape của Nam Phi đã được sử dụng cho khu vực nghiên cứu (hình 1). Khu vực nghiên cứu được chọn do sự sẵn có của dữ liệu Lidar. Đề án tưới tiêu nằm ở nơi hợp lưu của các con sông Harts và Vaal chứa nhiều loại đất bao phủ, bao gồm thảm thực vật bản địa, khu vực xây dựng, đất trống, nước và cây trồng bao gồm bông, ngô, lúa mì, lúa mạch, cỏ linh lăng, cây thân củ, hạt cải dầu và hạt hồ đào, tất cả đều được trồng trên cơ sở luân canh.

Description: https://www.gim-international.com/cache/2/d/b/1/2/2db1283b7794699c6717fdcd16530646942709e6.jpeg

Hình 1: Khu vực nghiên cứu – đề án thủy lợi Vaalharts, Bắc Cape, Nam Phi.

Các tập dữ liệu

Ba bộ dữ liệu đã được sử dụng là dữ liệu Lidar, ảnh hàng không và ảnh vệ tinh. Lidar và ảnh hàng không được Land Resources International chụp cho Bộ Nông nghiệp, Cải cách Đất đai và Phát triển Nông thôn Bắc Cape. Dữ liệu Lidar được thu thập từ ngày 19-29/02/2016 với cảm biến Leica ALS50-II Lidar ở độ cao 4.500ft, dẫn đến khoảng cách điểm trung bình là 0,7m và mật độ điểm trung bình là 2,04m2. Ảnh hàng không được thu thập từ ngày 22/02 – 18/3/2016 bằng cảm biến đa đặc hiệu PhaseOne iXA ở độ cao 7.500ft và bao gồm bốn dải, đó là xanh dương, xanh lá cây, đỏ và cận hồng ngoại (NIR). Ảnh hàng không có khoảng cách lấy mẫu mặt đất (GSD) là 0,1 m đối với các dải màu xanh dương, xanh lá cây và đỏ và GSD 0,5m cho dải NIR. Ảnh Sentinel-2 được thu thập vào ngày 10/2/2016 và được chọn do ít mây che phủ và khớp tạm thời với dữ liệu Lidar và ảnh hàng không. Bốn dải có độ phân giải 10m và sáu dải độ phân giải 20m của ảnh Sentinel-2 đã được sử dụng cho nghiên cứu.

Dữ liệu Lidar được sử dụng để lấy bốn tính năng, cụ thể là nDSM, một nDSM tổng quát, một raster cường độ và raster trả về nhiều giá trị. nDSM được tạo ra từ DTM và DSM độ phân giải 2m. nDSM tổng quát được tạo ra bằng cách tính toán phạm vi giá trị trong cửa sổ 5x5. Raster cường độ đã được nội suy ở độ phân giải 2m bằng cách sử dụng tất cả các giá trị trả về. Các tính năng kết cấu khác được tạo từ dữ liệu Lidar bằng cách áp dụng các biện pháp kết cấu dựa trên biểu đồ tần suất (HISTEX) và phân tích kết cấu (TEX) trên nDSM và hình ảnh cường độ sử dụng cửa sổ 5x5; các tính năng kết cấu với mối tương quan cao đã được loại trừ.

Ảnh hàng không được sử dụng để tạo ra hai bộ dữ liệu (A1 và A2). Đối với tập dữ liệu A1, phân tích thành phần chính (PCA) đã được thực hiện và sau đó các tính năng kết cấu tương tự được áp dụng cho dữ liệu Lidar đã được áp dụng trên raster PCA, sử dụng một cửa sổ lớn hơn để phù hợp với độ phân giải của ảnh Sentinel-2. Đối với tập dữ liệu A2, chỉ có các băng tần RBG được giảm xuống độ phân giải 0,5m để phù hợp với độ phân giải của băng tần NIR. Phân tích được thực hiện trên cả dữ liệu A1 và A2 để truy cập liệu việc thu nhỏ có tạo ra bất kỳ sự khác biệt có ý nghĩa thống kê nào hay không.

Ảnh Sentinel-2 chỉ hiệu chỉnh khí quyển bằng ATCOR, vì hình ảnh Sentinel-2 thu được ở cấp độ 1C đã được hiệu chỉnh hình học.

Ba bộ dữ liệu này sau đó được kết hợp để tạo ra tám tổ hợp tập dữ liệu khác nhau, cụ thể là hàng không (A2 và A1), Lidar (L), Sentinel-2 (S), hàng không và Sentinel-2 (A-S), hàng không và Lidar (A-L), Lidar và Sentinel-2 (L-S), và cuối cùng là Lidar, hàng không và Sentinel-2 (A-S-L). Bảng 1 liệt kê tám bộ dữ liệu đầu vào đã được xem xét. Tất cả tám bộ dữ liệu đã được tiêu chuẩn hóa bằng cách sử dụng zero-mean và chuẩn hóa phương sai.

Description: https://www.gim-international.com/cache/8/0/7/9/e/8079e90b72952f26359c11c1960b60ae2dcd54fa.png

Bảng 1: Tám bộ dữ liệu.

Phân loại cây trồng

Machine learning đã được sử dụng rộng rãi trong viễn thám, với các thuật toán machine learning thường được sử dụng là cây quyết định (DTs), random forest (RF), mạng nơron nhân tạo (NN) and hỗ trợ vector machine (SVM). Đối với nghiên cứu này, mười thuật toán đã được sử dụng, cụ thể là random forest (RF), decision tree (DT), XGBoost, k-nearest neighbour (k-NN), naïve bayes (NB), logistic regression (LR), neural network (NN), deep neural network (d-NN), support vector machine (SVM) với linear kernel (SVM L) và  SVM với radial dựa trên cấu trúc kernel (SVM RBF). Một nghìn điểm dữ liệu đã được tạo ra bằng cách lấy mẫu ngẫu nhiên phân tầng và chúng được sử dụng làm đầu vào cho các thuật toán, với 200 điểm được gán cho mỗi lớp (ngô, bông, hạt dẻ, vườn cây ăn quả và phi nông nghiệp). Mỗi thuật toán được xác thực chéo với một trăm lần lặp và mỗi lần lặp được chia ngẫu nhiên thành một tập dữ liệu đào tạo (70%) và tập dữ liệu kiểm tra (30%).

Kết quả phân loại được tóm tắt trong Bảng 2, cho thấy độ chính xác tổng thể cho tám bộ dữ liệu và mười thuật toán machine learning. Hình 2 cho thấy một so sánh trực quan về phân loại rừng ngẫu nhiên cho bảy trong số tám bộ dữ liệu (A2 đã bị loại trừ do tích lũy tổng thể thấp).

Description: https://www.gim-international.com/cache/9/a/5/b/5/9a5b5f93ef18f7cbce9ea7dbb1a1fcdc7960943c.png

Bảng 2: Kết quả độ chính xác tổng thể cho bảy bộ dữ liệu và mười bộ phân loại khác nhau.

Thảo luận và kết luận

Các thuật toán machine learning đã có thể phân loại chính xác 5 lớp bằng cách sử dụng các tổ hợp tập dữ liệu khác nhau làm đầu vào, với 9 trong số 10 thuật toán có được ít nhất một độ chính xác tổng thể trên 90% (nhóm random forest thu được độ chính xác tổng thể cao nhất là 94,6%). Ba bộ dữ liệu chính (ảnh hàng không, Lidar và Sentinel-2) có thể đạt được độ chính xác tổng thể khi được sử dụng riêng, với bộ dữ liệu Lidar và bộ dữ liệu Sentinel-2 có được các độ chính xác tổng thể tương tự. Mặc dù bộ dữ liệu Lidar và Sentinel-2 hoạt động tương đương với nhau, dữ liệu Sentinel-2 có lợi thế là được cập nhật thường xuyên (năm ngày một lần, tùy thuộc vào độ phủ mây), trong khi dữ liệu Lidar thường được cập nhật không thường xuyên. Tuy nhiên, dữ liệu Lidar đã có thể tự phân biệt giữa các loại cây trồng và chứng tỏ đặc biệt hữu ích khi phân biệt giữa các loại cây trồng khác nhau với sự khác biệt đáng chú ý về chiều cao, chẳng hạn như vườn cây ăn quả và cây thân củ.

Rõ ràng từ kết quả mà độ chính xác tổng thể cao hơn đạt được khi các bộ dữ liệu được kết hợp. Sự kết hợp của cả ba bộ dữ liệu thu được kết quả tổng thể cao nhất, mặc dù sự kết hợp của Lidar và Sentinel-2 cũng tương đương sự kết hợp sử dụng cả ba bộ dữ liệu. Do đó, nếu có sẵn, dữ liệu Lidar nên được sử dụng kết hợp với dữ liệu quang phổ để cải thiện độ chính xác phân loại, đặc biệt đối với sự phân biệt giữa các loại cây trồng mà có dấu hiệu quang phổ tương tự nhưng khác biệt cấu trúc rõ ràng (tức là sự khác biệt về chiều cao).

Description: https://www.gim-international.com/cache/2/2/a/8/e/22a8e9ff532b097cc1f8b6b355bbf0c558f0bc42.jpeg

Hình 2: So sánh trực quan thuật toán phân loại rừng ngẫu nhiên cho 7 thí nghiệm, với ảnh hàng không RGB được hiển thị ở góc trên cùng bên trái để định hướng.

Nguồn tin: GIM International, 2021