Nâng cao mô hình hóa 3D và trực quan hóa đô thị
13/08/2021
Tự động phát hiện, trích xuất dữ liệu, mô hình hóa 3D và trực quan hóa các tòa nhà ở khu vực đô thị bằng cách sử dụng dữ liệu viễn thám là một nhiệm vụ cần thiết trong các ứng dụng khác nhau như địa chính, quy hoạch đô thị và nông thôn, phát hiện sự thay đổi, thành lập bản đồ, cập nhật hệ thống thông tin địa lý, giám sát, giá trị nhà ở và định hướng chuyển đổi. Thậm chí ngày nay, nhiệm vụ này vẫn còn nhiều thách thức do các tín hiệu nhiễu vốn có (ví dụ: bóng đổ) trong dữ liệu viễn thám được sử dụng, cũng như sự khác biệt về quan điểm, môi trường xung quanh, hình dạng và kích thước phức tạp của các tòa nhà. Bài viết này phác thảo một quy trình làm việc chung bằng cách sử dụng các công nghệ hiện đại.

Bên cạnh những phát triển trong xử lý hình ảnh gần đây, những tiến bộ trong thị giác máy tính (computer vision) đã thúc đẩy các phương pháp tự động có thể tạo ra các mô hình 3D từ chồng xếp nhiều dữ liệu hình ảnh 2D có nguồn gốc từ các nền tảng ảnh hàng không. Như là phương pháp áp dụng thuật toán kết hợp hình ảnh dày đặc (DIM) mà chiết xuất một cấu trúc điểm 3D dày đặc của một khu vực hoặc một đối tượng quan tâm. DIM là một quy trình có thể chấp nhận so với các phương pháp tiếp cận khác sử dụng các loại dữ liệu cảm biến khác nhau như là Lidar. Trong lĩnh vực này, nhiều thuật toán kết hợp hình ảnh lập thể đã được phát triển, mỗi loại trong số đó có những ưu điểm và hạn chế riêng. Quy trình phát hiện tòa nhà và mô hình hóa 3D bao gồm các bước sau: i) thu thập dữ liệu và tạo ra các tính năng thích hợp, ii) quy trình phân loại, iii) phát hiện tòa nhà, iv) phân loại mái tòa nhà, v) mô hình hóa 3D và trực quan hóa.

Description: https://www.gim-international.com/cache/1/a/f/3/0/1af30366689b470407eacfd51152accaec5740ce.png 

Hình 1. Quy trình làm việc để phát hiện tòa nhà và mô hình hóa 3D.

 

Tạo các đặc tính bổ sung

Tùy thuộc vào nguồn dữ liệu được sử dụng, công nghệ phát hiện tòa nhà có thể được phân thành ba nhóm: (i) những nguồn dữ liệu ảnh hàng không hoặc dữ liệu ảnh vệ tinh, (ii) những nguồn dữ liệu khai thác thông tin ba chiều và (iii) những nguồn kết hợp cả hai nguồn dữ liệu. Tuy nhiên, hai hạn chế chính của việc sử dụng thông tin từ đa nguồn dữ liệu (ví dụ, Lidar và dữ liệu ảnh) là chi phí phát sinh của thu nhận và xử lý, và các vấn đề liên quan đến đồng đăng ký. Vì lý do này, trong các ứng dụng thực tế như địa chính, đôi khi chỉ có một loại dữ liệu được xem xét. Để kết thúc, một số chỉ số và đặc tính được tính toán để phân biệt hiệu quả các tòa nhà từ các đối tượng đô thị khác như thảm thực vật và mặt đất. Trong ngữ cảnh này, tùy thuộc vào dữ liệu được sử dụng, chuẩn hóa chỉ số thực vật khác nhau (NDVI) đã được tính toán (khi kênh phổ NIR có sẵn trong ảnh) và mô hình số bề mặt (nDSM) được tính toán (khi có nhiều điểm DIM hoặc Lidar). Tuy nhiên, các đặc tính bổ sung có thể được tính toán và xếp chồng hình ảnh, đặc biệt từ các điểm Lidar, để đóng góp vào thực hiện sự phân loại. Các đặc tính như vậy đến từ cách giải thích vật lý của thông tin, ví dụ: entropy, sự thay đổi chiều cao, độ rộng và sự phân bố của các vectơ bình thường.

Description: https://www.gim-international.com/cache/e/6/e/c/b/e6ecb29de31bb3bd51a96790c3c50ead898cfcdc.png 

Tạo các đặc tính bổ sung từ tập hợp điểm Lidar.

Phân loại và phát hiện tòa nhà

Thông thường, các phương pháp phát hiện tòa nhà được phân biệt với những phương pháp áp dụng sơ đồ máy học (machine-learning) có giám sát và những phương pháp này sử dụng cách tiếp cận dựa trên mô hình. Ưu điểm chính của phương pháp machine-learning đạt được là các phương pháp linh hoạt và theo hướng dữ liệu, chỉ yêu cầu các mẫu huấn luyện để khái quát hóa thành công các thuộc tính tòa nhà và thực hiện phân loại chính xác. Ngược lại, các phương pháp tiếp cận dựa trên mô hình bao gồm nhiều tham số cần được tinh chỉnh cho từng vùng nghiên cứu. Do đó, các mô hình học có giám sát cung cấp khả năng khái quát hóa cao hơn, tức là chống lại mạnh mẽ dữ liệu nằm ngoài bộ mẫu đào tạo. Gần đây, trong quá trình machine learning, các thuật toán tiên tiến như phân loại deep learning thông qua cải thiện hệ thống mạng thần kinh phân tích hình ảnh (CNNs) đã được áp dụng hiệu quả cho nhiệm vụ phát hiện tòa nhà.

Nói chung, bộ phân loại CNN có hai thành phần chính: lớp convolutional và lớp phân loại. Một lớp convolutional về cơ bản là một hệ thống trích xuất tính năng sử dụng các bộ lọc cải thiện (tức là biến đổi) cho dữ liệu đầu vào (tính năng chồng xếp hình ảnh). Những tính năng hệ thống trích xuất có thể tối ưu hóa hiệu suất phân loại. Sự gắn kết không gian là một yếu tố quan trọng của các biến đổi liên quan đến lớp convolutional. Đây là một tính chất rất quan trọng của mô hình CNN vì các đặc điểm không gian ảnh hưởng đáng kể đến độ chính xác phát hiện tòa nhà. Mục đích của lớp phân loại thực sự là một sơ đồ học có giám sát với khả năng chuyển đổi các đầu vào từ lớp convolutional thành đầu ra mong muốn, tức là các lớp được dán nhãn. Do đó, một bộ phân loại CNN, trái ngược với phương pháp machine learning thấp khác, trước tiên hãy lọc dữ liệu đầu vào theo cách tối đa hóa độ chính xác phân loại và sau đó thực hiện phân loại. Đầu ra của CNN là hình ảnh được phân loại ở cấp độ pixel, bao gồm thông tin được liên kết với nhãn của từng lớp. Xử lý hình thái sau được thông qua để giảm độ nhiễu phân loại, xem xét việc gắn kết không gian, ví dụ, thông qua các toán tử nhỏ nhất tiếp theo là chọn lọc phần nhiều,... Cuối cùng, để đánh giá kết quả phát hiện tòa nhà, các tiêu chí khách quan được sử dụng như tính đầy đủ, chính xác và tỷ lệ chất lượng dựa trên các thực thể TP, FP và FN, theo đó TP là viết tắt của những mặt tích cực thực sự (ví dụ: tham chiếu các điểm ảnh tòa nhà được phát hiện chính xác), FP là viết tắt của sai tích cực (ví dụ: điểm tòa nhà không tồn tại trong tập dữ liệu tham chiếu) và FN là viết tắt của sai tiêu cực (ví dụ: tham chiếu các điểm ảnh tòa nhà không được phát hiện).

Description: https://www.gim-international.com/cache/9/c/1/0/7/9c107cfeaff4b9a18c68ae4e738d25ee1b9f6757.png 

Thu thập các mẫu đào tạo cho mỗi lớp (trái) và kết quả phân loại thông qua bộ phân loại CNN (phải).

Phân đoạn mái tòa nhà và kết quả mô hình 3D

Ranh giới tòa nhà được trích xuất từ quá trình phân loại được lấy rộng ra một chút để cắt thô các điểm Lidar hoặc DIM. Sau đó, đối với mỗi tập hợp điểm 3D của mỗi tòa nhà, một quá trình phân đoạn mái nhà được thực hiện. Các kỹ thuật phát hiện mặt phẳng được sử dụng nhiều nhất từ các tập hợp điểm 3D đang phát triển theo khu vực, là phương pháp RANSAC và Hough. Trên thực tế, biến đổi Hough ngẫu nhiên các điểm thích ứng (RHT) có thể trích xuất kết quả thỏa đáng, đáp ứng độ chính xác so với thời gian tính toán. Đối với mỗi mặt phẳng được phát hiện, các ranh giới tương ứng được trích xuất để tạo ra các đa giác 3D liên quan. Khi các giá trị chuẩn hóa độ cao của mỗi đỉnh đa giác có sẵn, mô hình xây dựng 3D tương ứng có thể được trích xuất.

Description: https://www.gim-international.com/cache/d/1/e/3/6/d1e3673418182c0fe54332627c9b0ca7d9bd659e.png

Hình 3. Phân đoạn mái nhà và mô hình 3D.

Kết luận

Tự động phát hiện tòa nhà và mô hình hóa 3D là một nhiệm vụ liên tục, cần thiết và quan trọng cho nhiều ứng dụng khác nhau. Các công nghệ hiện đại hỗ trợ phát triển quy trình làm việc. Hai đặc điểm công nghệ mới xuất hiện chính là: i) sự khác nhau của cảm biến mới có thể cung cấp nhiều thông tin hơn (ví dụ: tập hợp điểm Lidar đa/siêu đặc biệt), và ii) các phương pháp tiên tiến như chương trình machine learning.

Nguồn tin: GIM International, 2021