跳至主要内容
2025

牛津大学 APAD 项目利用 AWS 机器学习技术改善空气质量并助力社区环境治理

了解牛津大学 APAD 项目如何利用 Amazon EC2 实例驱动的机器学习管道推进大气污染研究。

关键成果

120 万张

已处理卫星图像

约 17600 个

节省计算小时数

高达 80%

基础设施成本降低

缩短 90%

监控时间和任务运行时间

概览

在印度-恒河平原(IGP)地区,数百万人因呼吸着全球污染最严重的空气而面临寿命缩短的威胁。数十年来,由于缺乏精确的污染源数据,治理工作举步维艰,当地民众一直在与无形的敌人抗争。

但牛津大学史密斯企业与环境学院创新奖项资助的空气污染资产级检测(APAD)研究项目正在改变这一现状。APAD 构建了定制化机器学习(ML)模型来分析卫星影像并识别污染源,同时利用 Amazon Web Services(AWS)基础设施存储和处理这一海量数据集。通过绘制全面的污染源分布图,该组织为社区提供了开展精准治理所需的科学依据。

A close-up image of an electronic circuit board showing a CPU socket with gold pins, highlighting technology and computing hardware components.

关于空气污染资产级检测

空气污染资产级检测(APAD)项目脱胎于牛津大学,是一个专注于识别空气污染排放源的研究项目。该项目通过采集和处理关键环境数据,构建开源数据集供全球研究者使用。

机会 | 利用 AWS 基础设施助力 APAD 机器学习研究

APAD 致力于识别排放源并分析有害却常被忽视的污染物的影响。该组织主要在人口超过 4亿的IGP中运作。

在 IGP 地区,数百万人因空气污染面临心血管和呼吸系统健康威胁。在印度和巴基斯坦,学校经常因雾霾严重停课,迫使学生只能待在室内,痛失受教育的机会。由于缺乏全面的污染源数据,这些问题长期得不到充分研究,更得不到有效解决。

传统砖窑(燃烧煤炭等材料的制砖厂)是造成空气质量恶化的主要源头。2024 年 5 月,APAD 启动了一项计划:通过卫星影像和机器学习技术绘制全污染源可视化分布图,助力社区做出数据驱动的决策。

APAD 曾使用本地计算机运行机器学习工作负载,但无法支撑涉及数百万数据点的项目规模。APAD 需要一种既能弹性扩展又经济高效的解决方案。它采用了亚马逊弹性计算云 (Amazon EC2),几乎可以为任何工作负载提供安全且可调整的计算容量。该组织还使用了亚马逊简单存储服务 (Amazon S3),这是一项旨在从任何地方检索几乎任意数量的数据的对象存储服务,来存储超过 500 GB 的图像和结果数据。

APAD 机器学习与深度学习专家 Suleman Hamdani 表示:“我们的目标是高效处理数据,为 IGP 地区的政府及组织机构提供切实可用的成果。我们以改善社会民生为初心,而 AWS 正是实现这一愿景的技术使能者。”

解决方案 | 利用机器学习与深度学习模型处理 120 万张卫星影像

在过去的5个月中,APAD创建了一条管道,帮助将卫星数据转化为切实可行的环境见解。其运作流程如下:首先,APAD 将海量低分辨率卫星影像数据下载到 Amazon S3 存储桶,随后进行数据标注与预处理。之后,它将数据输入到机器学习和深度学习模型中,这些模型分别在专为计算密集型工作负载设计的亚马逊 EC2 C5 实例上运行,以及分别由 NVIDIA T4 Tensor Core GPU 提供支持的亚马逊 EC2 G4 实例。这些模型经过专门训练,可识别秸秆焚烧等污染源的视觉特征。当检测到潜在污染源时,系统会通过并行处理自动标定坐标位置。为了提高准确性,APAD 还开发了第二条使用深度学习来分析高分辨率图像的管道。

为了提高计算效率和减少服务器负载,APAD 使用了基于生成人工智能的助手 Amazon Q 来加速软件开发。通过使用 AWS 替代自有基础设施,APAD 将机器学习运行时长、影像检索时间和高分辨率影像下载时间分别缩短到原来的 1/72、1/100 和 1/5,相当于节省了数月工作量。

并行处理技术还将模型推理速度提升到原先的 50 倍。Hamdani 表示:“我们必须采用多进程处理这些影像,因为本地计算资源严重不足。若非使用 AWS,处理如此海量的数据只会耗费更长时间。” 借助 AWS,APAD 累计节省约 17600 个计算小时,基础设施成本最高降低 80%,监控时间和任务运行时长缩减 90%,从原先每天数小时降至仅需几分钟。

利用 AWS,APAD 获得了处理并存储 120 万张卫星影像所需的强大算力。这些影像帮助该组织绘制了 IGP 地区 150 万平方英里的污染分布图,识别出包括两类砖窑在内的超 5 万个污染源。借助 AWS,APAD 的数据处理吞吐量提升逾 400%,从每日约 5 千平方英里跃升至 3 万平方英里。

为了帮助其他组织在其工作基础上再接再厉,APAD 于 2024 年 11 月通过 AWS 开放数据注册表将其所有数据和技术管道开源。APAD 地理信息系统专家 Khizer Zakir 表示:“我们的目标是让数据更易获取,并帮助研究者挖掘数据价值。”目前巴基斯坦和印度的多个组织机构已将 APAD 成果应用于当地空气质量改善计划。APAD 的使用案例已超越空气质量研究范畴,吸引了 IGP 地区外不少组织机构的兴趣。

APAD 在伊斯兰堡一所大学举办了讲习会,指导学生如何将项目代码与数据应用于硕士课题研究。APAD 创始人 Hassan Sheikh 表示:“我们影响力战略的核心,不仅是突破单纯的数据产出与研究边界,更要赋能当地社区与研究人员。”

成果 | 推动全球空气质量研究取得突破

APAD 利用 AWS 为资源有限的小型组织应对环境挑战提供了可复制的技术蓝图。这项实践证明:基于可靠的基础设施构建强大的机器学习解决方案,既无需巨额硬件投入,也不必耗费数年开发周期。目前,该组织已收集并处理约 100 万张中高分辨率污染类型及来源影像,正着力协助研究人员与政策制定者利用这些数据做出科学决策。例如,相关数据可用于估算特定区域车辆的污染排放量,为交通法规制定提供依据。

展望未来,APAD 计划将研究范围拓展至非洲,首期覆盖乌干达、尼日利亚、加纳、马拉维和刚果民主共和国。该项目会重点分析这些地区目标污染物的主要来源,特别关注煤电厂、水泥厂、砖窑、造纸工业以及正规与非正规垃圾处理场。

APAD 传播专家 Jaisha Mubashir 表示:我们期待与更多环保志士建立联结,我们希望充分发挥这个开源数据集的影响力。”

White text "APAD" on a dark green background with thin white lines above and below.
We started with a social goal, and AWS was the means to reach that goal.

Suleman Hamdani

Machine Learning and Deep Learning Specialist, Air Pollution Asset-Level Detection

图 1.

Workflow pipeline showing (a) brickkiln detection, (b) postprocessing to geolocate kilns, and (c) YOLO v8–based detection

开始使用

无论行业无论规模,每天都有各种组织在使用 AWS 实现自身业务转型、实现企业愿景。欢迎您联系我们的专家,立即踏上您的 AWS 之旅。

联系销售人员