← 返回总览
82
论文总数
82
高分论文
7.9
平均评分
5
关键词数
4D-PreNet:一种用于4D-STEM数据分析的统一预处理框架
📝 作者: Mingyu Liu (Global Institute of Future Technology of Shanghai Jiao Tong University), Zian Mao (Globa
📄 中文摘要:
本文提出了一种名为4D-PreNet的端到端深度学习框架,用于四维扫描透射电子显微镜(4D-STEM)数据的预处理,以解决高通量数据采集中的关键瓶颈问题。研究背景在于4D-STEM技术虽然能够实现高分辨率的应变场、晶格取向和晶体缺陷映射,但其数据采集过程中普遍存在的噪声、束中心漂移和椭圆畸变等问题严重影响了定量分析的精度。传统的校正算法往往针对特定材料,缺乏通用性和鲁棒性。4D-PreNet通过整合增强型U-Net和ResNet架构,同时实现了去噪、中心校正和椭圆畸变校准三大功能。该框架在大规模模拟数据集上进行训练,涵盖了多种噪声水平、漂移幅度和畸变类型,从而在不同实验条件下表现出良好的泛化能力。关键发现包括:去噪过程中均方误差(MSE)降低了高达50%,中心检测任务中实现了亚像素级定位,平均误差低于0.04像素。相较于传统算法,4D-PreNet在噪声抑制和衍射图案恢复方面均有显著改进。此外,该框架在晶体和非晶材料上均表现出色,支持高通量、实时的4D-STEM数据分析。研究结论表明,4D-PreNet为自动化材料表征提供了可靠的预处理工具,尽管在极端噪声条件和复杂结构系统下仍有改进空间,但其无参数化、快速处理的特点为智能电子显微镜和闭环实验控制奠定了基础。
4D-STEM深度学习数据预处理去噪椭圆畸变校正
基于社交数据的系统用于识别地产相关事件和主题
📝 作者: Wenchuan Mu, Menglin Li, Kwan Hui Lim
📄 中文摘要:
随着社交媒体平台(如Twitter和Facebook)在日常生活中的深度嵌入,它们已成为实时本地新闻和个人经历的重要来源,尤其在城市人口不断增长的背景下,对于识别地产相关问题具有重要价值。本研究提出了一种基于语言模型的系统,用于从社交媒体内容中检测和分类地产相关事件。该系统采用分层分类框架,首先筛选出相关帖子,然后将其分类为可操作的地产相关主题,包括基础设施、停车和噪音等。此外,对于缺乏明确地理标记的帖子,系统应用基于Transformer的地理定位模块,以兴趣点(POI)级别推断发帖位置。研究通过对Twitter/X数据集和专有地产事件数据集的初步评估,验证了系统核心组件的性能。实验结果表明,基于BERT的分类模型在地产相关帖子检测和主题分类任务中表现出色,准确率和F1分数均达到较高水平,尤其在基础设施和停车类别中表现尤为突出。地理定位模块transTagger在新加坡数据集上也取得了合理的准确性,尽管任务本身因兴趣点数量庞大而具有挑战性。系统旨在解决社交媒体信息过载问题,为城市管理和运营响应提供及时的数据驱动洞察,支持实时城市态势感知。未来工作将聚焦于隐私风险和分类及地理推断中的代表性偏差问题。本研究为地产管理和城市运营提供了一个创新的自动化工具,具有重要的应用潜力。
社交媒体分析地产事件检测语言模型地理定位城市管理
圆拟合的异常值检测算法
📝 作者: Ahmet G\"okhan Poyraz
📄 中文摘要:
本文提出了一种基于极坐标的异常值检测(PCOD)算法,用于提升圆拟合在工业应用中的精度。研究背景源于工业图像处理中圆拟合算法在噪声点集下的性能下降问题,特别是在质量控制和设计应用中对高精度测量的需求。作者通过将点集转换为极坐标系统,计算局部和全局标准偏差,并通过比较局部均值与全局标准偏差来识别和移除异常值。实验以工业洗衣机零件的高精度直径测量为案例,采用机器视觉系统获取图像,并通过亚像素边缘检测等预处理步骤生成边缘点数据。随后,应用PCOD算法清理异常值,并与十种不同的圆拟合算法和五种传统异常值检测方法进行比较。结果表明,PCOD算法在数据集上的准确性表现优于其他方法,显著降低了平均绝对误差(MAE),在十种圆拟合算法中的九种中均表现出更高的精度和稳定性,尤其是在噪声和污染严重的工业环境中。研究还构建了一个针对工业图像处理需求的性能评估框架,系统比较了现有圆拟合算法的数学特性和经验性能。结论指出,PCOD算法为工业测量系统提供了可靠的解决方案,特别是在制造和质量控制等高精度应用中,具有显著的潜在价值和应用前景。
异常值检测圆拟合极坐标工业图像处理亚像素边缘检测
地理人工智能中的托布勒第一定律:一种空间显式深度学习模型用于弱监督下的地形特征检测
📝 作者: Wenwen Li, Chia-Yu Hsu, Maosheng Hu
📄 中文摘要:
本文提出了一种创新的深度学习模型,用于在弱监督条件下进行地形特征检测,特别是在地理人工智能(GeoAI)领域。研究背景聚焦于地理空间研究中人工智能应用的挑战,包括训练数据不足以及模型设计中对空间原则和效应的忽视。作者基于托布勒第一定律(即地理学中“近邻事物更相关”的空间自相关原理),开发了一种空间显式模型,通过仅使用弱标签(图像级标注而非对象级标注)实现对象检测。这一方法显著降低了标注成本,同时保持了较高的检测性能。此外,研究还将注意力图(attention map)集成到深度学习对象检测流程中,并设计了多阶段训练策略以进一步提升检测效果。实验结果表明,该模型在火星撞击坑的自动检测中取得了最先进的性能,检测精度(mAP)达到84.8%,相比现有最佳模型提升了近10%。该模型不仅适用于地球表面的自然和人造特征检测,还可推广至其他行星的地形分析。研究还验证了模型在不同地形类别(如火山、沙丘等)上的泛化能力,展现了其在处理复杂地形特征时的鲁棒性。作者通过对火星撞击坑数据集和地球自然特征数据集的实验,证明了该模型在弱监督对象检测(WSOD)中的优越性,并为GeoAI的理论和方法体系做出了重要贡献。结论指出,该研究为自动化地形特征检测提供了有效工具,未来可进一步优化模型以支持地球和空间探索任务。
地理人工智能弱监督学习空间自相关地形特征检测深度学习
模块化Transformer架构在精准农业影像中的应用
📝 作者: Brian Gopalan (The Pennsylvania State University), Nathalia Nascimento (The Pennsylvania State Unive
📄 中文摘要:
本文针对精准农业中无人机视频的杂草分割需求,提出了一种高效且准确的质量感知模块化深度学习框架。研究背景聚焦于无人机影像中常见的图像退化问题,如噪声和模糊,这些问题显著影响了杂草识别的准确性。作者提出了一种创新的解决方案,通过分析图像质量条件(如模糊和噪声),将输入数据动态路由到专门优化的预处理和Transformer模型中。具体方法包括:首先利用均值绝对偏差和拉普拉斯算子对无人机图像进行噪声和模糊检测;然后根据检测结果,将数据路由到三种视觉Transformer模型之一——适用于清晰图像的基准模型、针对噪声优化的Fisher向量编码Transformer模型,或针对模糊优化的Lucy-Robinson解码器Transformer模型。这种模块化路由策略使系统在分割质量和计算效率上均优于现有的基于CNN的方法。实验基于Sorghum数据集(包含1300对模糊-清晰图像对)进行,结果显示该框架的Dice分数从普通视觉Transformer的0.7794提升至0.8492,超越了原始作者的0.8373,同时显著降低了计算时间。作者还通过消融研究验证了各模块的有效性,表明模块化设计在处理图像退化时兼顾了性能与效率。结论指出,该框架为精准农业提供了强大而高效的解决方案,未来工作将包括实地测试及扩展至产量预测等农业应用领域。这一研究展示了深度学习在农业影像处理中的重要进展。
模块化深度学习精准农业杂草分割视觉Transformer图像退化
CoughViT:一种用于咳嗽音频表示学习的自监督视觉变换器
📝 作者: Justin Luong, Hao Xue, Flora D. Salim
📄 中文摘要:
本研究提出了一种名为CoughViT的新型预训练框架,旨在通过自监督学习方法学习通用的咳嗽音频表示,以提升在数据有限的诊断任务中的性能。研究背景聚焦于呼吸系统疾病的早期诊断,通过分析咳嗽音频信号来辅助疾病检测。然而,数据和标签稀缺性是当前研究的主要挑战,尤其是在COVID-19以外的疾病领域。CoughViT通过在丰富的COVID-19咳嗽数据集上进行领域特定的预训练,利用自监督的掩码数据建模技术,克服了标签稀缺问题,并采用视觉变换器(Vision Transformer, ViT)架构处理咳嗽音频的频谱图表示,其优势在于能够自然适应不同长度的输入数据。研究在三个诊断任务上评估了CoughViT的性能,包括COVID-19检测、湿咳与干咳分类以及咳嗽检测。实验结果表明,CoughViT在自监督预训练下显著提升了下游任务的表现,尤其是在COVID-19检测任务中,其性能优于或匹配当前最先进的监督音频表示模型。此外,与在更大规模标注数据集上预训练的模型相比,CoughViT在较小无标签数据集上的表现依然具有竞争力。研究还探讨了不同预训练策略和模型配置的影响,发现自监督学习比监督预训练更能生成泛化性强的特征表示。结论指出,CoughViT为咳嗽音频建模提供了一种创新方法,有望推动AI辅助呼吸疾病诊断的发展,但仍需在更广泛的呼吸疾病数据集上进一步验证其适用性。
咳嗽音频分析自监督学习视觉变换器呼吸疾病诊断健康信息学
U-PINet:端到端分层物理信息学习与稀疏图耦合用于3D电磁散射建模
📝 作者: Rui Zhu, Yuexing Peng, Peng Wang, George C. Alexandropoulos, Wenbo Wang, Wei Xiang
📄 中文摘要:
电磁(EM)散射建模在雷达遥感中至关重要,但其固有的复杂性带来了显著的计算挑战。传统数值求解器虽然精度高,但面临可扩展性问题和高计算成本。纯数据驱动的深度学习方法虽然高效,但缺乏物理约束的嵌入,且需要大量标注数据,限制了其应用和泛化能力。为解决这些问题,本研究提出了一种U形物理信息网络(U-PINet),这是首个完全基于深度学习的、物理信息驱动的分层框架,旨在确保物理一致性的同时最大化计算效率。受电磁求解器中的分层分解策略和局部电磁耦合固有稀疏性的启发,U-PINet通过多尺度处理神经网络架构建模近场和远场相互作用的分解与耦合,同时采用物理启发的稀疏图表示方法,有效模拟复杂三维(3D)对象网格元素之间的自耦合和互耦合。这种原则性方法实现了端到端多尺度电磁散射建模,提高了效率、泛化能力和物理一致性。实验结果表明,U-PINet能够精确预测表面电流分布,与传统求解器结果高度一致,同时显著降低计算时间,并在精度和鲁棒性上优于常规深度学习基准模型。此外,在雷达截面(RCS)预测任务上的评估进一步确认了U-PINet在下游电磁散射应用中的可行性。研究通过对简单和复杂3D完美电导体(PEC)目标的评估,验证了U-PINet在不同几何形状和参数设置下提供准确表面电流预测和RCS估计的能力,无需预处理或矩阵组装,标志着其与依赖求解器方案的根本性区别。U-PINet的分层物理信息神经网络框架提供了一种可扩展且物理一致的解决方案,预期可良好泛化至任意几何形状、极端电磁条件和宽带应用。
电磁散射物理信息神经网络分层建模遥感深度学习
精确3×3矩阵乘法的60加法、秩23方案
📝 作者: Joshua Stapleton
📄 中文摘要:
本文提出了一种新的3×3矩阵乘法算法,将一般(非交换)3×3矩阵乘法的加法复杂度从之前的记录61次(Schwartz-Vaknin, 2023)和62次(M artensson-Wagner, 2025)降低至60次,且无需改变基底。这一成果刷新了当前的最优记录。研究背景源于矩阵乘法在现代计算中的核心地位,尤其是在人工智能和数字工作流中,矩阵乘法的高频使用使得算法的微小改进也能带来显著的成本和能耗节约。作者通过设计一种基于深度学习的神经发现管道(Neural Discovery Pipeline)实现了这一突破。该方法利用小型全连接神经网络,结合矩阵乘法的内在结构,通过减少隐藏层维度和鼓励稀疏性来降低算术操作次数。训练过程中,网络权重逐步通过三值化调度(Ternarisation Schedule)约束到{-1, 0, 1},并最终通过硬量化生成整数权重矩阵,随后使用符号验证确保算法的有效性。此外,作者采用了M artensson-Wagner提出的Greedy-Potential后处理方法,进一步优化线性操作次数,最终将总算术复杂度从之前的84次(23次乘法+61次加法)降低至83次(23次乘法+60次加法)。尽管加法次数的减少对实际性能影响有限(仅约3.2%的线性阶段优化),但研究表明Greedy-Potential方法仍有进一步优化的潜力,且该发现过程可在普通消费级硬件上高效完成。未来工作将扩展至更大规模矩阵(如4×4)及有限域或卷积等其他双线性运算问题。本研究为矩阵乘法算法的理论边界提供了新的存在证明,并展示了轻量级计算在算法发现中的潜力。
矩阵乘法加法复杂度快速算法神经发现三值化
RX-INT:一种用于实时检测和分析内存威胁的内核引擎
📝 作者: Arjun Juneja
📄 中文摘要:
随着无文件执行技术的日益复杂化,传统基于签名的安全产品面临严峻挑战。恶意软件和作弊开发者利用手动映射、模块踩踏和无线程注入等方法,在合法进程的地址空间内操作,增加了检测难度,因其合法与非法的界限模糊。现有工具常依赖于便携式可执行(PE)结构或易受时间检查到使用时间(TOCTOU)竞争条件的攻击影响。为解决这一问题,本文提出了RX-INT,一种内核辅助系统,其架构设计能够抵御TOCTOU攻击。RX-INT引入了一个检测引擎,结合实时线程创建监控和状态化虚拟地址描述符(VAD)扫描器,并融入多种启发式方法。该引擎对私有和镜像支持的内存区域进行快照,通过实时内存哈希检测模块踩踏等非法修改。在与常用内存取证工具PE-sieve的直接比较中,RX-INT在某些基准测试中表现出更高的检测率,成功检测到PE-sieve未能识别的手动映射区域。研究还展示了RX-INT在内核中实现的导入解析器,通过解析目标进程中加载模块的导出地址表(EAT),自动生成API调用报告,加速逆向工程过程。实验结果表明,RX-INT在检测无文件威胁方面具有显著优势,尤其在反作弊和内存安全领域具有直接应用价值。尽管存在对内核级威胁的潜在漏洞和评估范围的局限性,RX-INT仍为实时内存威胁检测提供了创新解决方案,并为未来的虚拟机内省(VMI)和基于硬件的内存完整性保护奠定了基础。
内存取证内核检测无文件威胁反作弊模块踩踏
在背景网络流量存在下的应用类型置信度驱动分类
📝 作者: Eun Hun Choi, Jasleen Kaur, Vladas Pipiras, Nelson Gomes Rodrigues Antunes, Brendan Massey
📄 中文摘要:
本研究聚焦于在网络流量中准确分类应用类型的问题,尤其是在存在非应用特定的通用背景流量(如广告、分析、共享API和追踪器)的情况下。传统的深度学习分类器在精心策划的数据集上表现良好,但在真实世界流量数据中,由于背景流量的干扰,分类性能显著下降。为解决这一问题,作者提出了一种基于高斯混合模型(GMM)的分类框架,通过改进深度学习分类器的置信度评估来实现更可靠的分类结果。研究首先通过分析DNS查询/响应,识别出背景流量对分类器的干扰,并将其单独标记为一个类别进行训练和测试。尽管引入背景类别提高了模型性能,但仍存在应用流量与背景流量之间的混淆。为此,作者设计了一种基于GMM的分类框架,利用监督对比损失训练深度学习编码器生成嵌入向量,并通过余弦相似度分数和GMM聚类来评估分类不确定性。实验结果表明,与基于softmax概率的基准方法相比,该框架在保持较高覆盖率的同时显著提高了分类性能(宏平均F1分数提升至0.90以上)。此外,作者发布了一个包含8种应用类型流量的大型数据集,详细标注了相关和背景流量及其关联域名,为后续研究提供了宝贵资源。研究结论指出,该框架能够有效减少背景流量的误分类,尤其是在社交媒体等类别中,同时为未来的在线应用分类和概念漂移检测提供了研究方向。
网络流量分类背景流量深度学习高斯混合模型置信度评估
月球和火星陨石坑检测与识别的深度学习框架
📝 作者: Yihan Ma, Zeyang Yu, Rohitash Chandra
📄 中文摘要:
本研究提出了一种基于深度学习的框架,用于月球和火星表面陨石坑的自动化检测与识别。陨石坑作为行星表面的重要地貌特征,对行星科学、地质历史及撞击过程研究具有重要意义。传统陨石坑识别方法依赖人工视觉判读,耗时且易受主观偏差影响,而深度学习技术的进步为自动化检测提供了新机遇。本文采用卷积神经网络(CNN)、YOLO及其变体YOLO-v11以及ResNet-50等模型,构建了一个两阶段检测框架:第一阶段通过经典CNN、ResNet-50和YOLO进行陨石坑识别;第二阶段利用基于YOLO的检测技术进行陨石坑定位。研究使用来自NASA和Roboflow Universe的遥感数据,针对火星和月球特定区域进行实验,数据涵盖不同分辨率、光照条件及地形特征的图像。实验结果表明,YOLO模型在各类陨石坑检测中表现出最均衡的性能,尤其在大型陨石坑检测中具有较高召回率(火星数据上为0.90±0.06);ResNet-50在小型陨石坑识别中表现出色(F1分数为0.97±0.01),但对中大型陨石坑的检测能力有限;CNN模型则在小型陨石坑检测中表现优异,但对大型目标的检测能力不足。研究还揭示了类别不平衡对模型性能的影响,小型陨石坑样本占主导地位导致中大型陨石坑检测受限。此外,滑动窗口策略结合非极大值抑制(NMS)技术有效提升了小型陨石坑的检测精度,但增加了计算成本。本研究通过严格的实验设计和重复验证,建立了可靠的模型评估框架,为行星表面特征检测及计算机视觉领域的多尺度目标检测算法提供了重要参考。未来研究方向包括优化模型架构以平衡精度与计算成本、开发样本增强技术以缓解类别不平衡问题,以及探索跨行星数据迁移学习方案以提升模型适用性。
深度学习陨石坑检测遥感数据YOLOResNet-50
RAVID:一种知识驱动的AI生成图像识别方法——检索增强视觉检测
📝 作者: Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Abdenour Hadid
📄 中文摘要:
本文提出了一种名为RAVID(Retrieval-Augmented Visual Detection)的创新框架,用于AI生成图像的检测,这是首个利用视觉检索增强生成(RAG)的框架。研究背景源于生成模型(如GAN和扩散模型)快速发展,使得AI生成图像与真实图像的区分变得日益困难,而传统检测方法依赖低级伪影和模型特定特征,泛化性和鲁棒性不足。RAVID通过动态检索相关图像来增强检测能力,核心方法包括:采用经过微调的CLIP图像编码器(RAVID CLIP),结合类别相关提示改进表征学习;集成视觉-语言模型(VLM,如Qwen-VL或Openflamingo),将检索到的图像与查询图像融合,丰富输入信息以提高检测精度。实验在UniversalFakeDetect基准数据集上进行,涵盖19种生成模型,结果显示RAVID取得了93.85%的平均准确率,超越现有最先进方法。此外,RAVID在图像退化(如高斯模糊和JPEG压缩)条件下表现出色,平均准确率达80.27%,相比最先进模型C2P-CLIP的63.44%有显著提升,证明了其鲁棒性。研究还探讨了检索图像数量和不同VLM对性能的影响,强调了检索相关上下文的重要性。结论表明,RAVID通过检索增强技术显著提升了AI生成图像检测的准确性和适应性,为真实世界应用提供了可靠解决方案,并为上下文感知和鲁棒性检测机制的发展铺平了道路。
AI生成图像检测检索增强生成视觉-语言模型CLIP编码器图像退化鲁棒性
SocialPulse:一种基于智能手表的实时社交互动检测系统
📝 作者: Md Sabbir Ahmed, Arafat Rahman, Mark Rucker, Laura E. Barnes
📄 中文摘要:
社交互动是日常生活中不可或缺的一部分,对个体幸福感和心理健康具有重要影响。然而,通过可穿戴设备自动检测社交互动仍是一个未充分探索的领域,现有系统多局限于受控环境、仅能检测面对面互动,并依赖于僵化的假设(如固定时间窗口内有两人对话)。为解决这些问题,本研究开发了SocialPulse,一种基于智能手表的实时系统,能够检测面对面和虚拟社交互动。该系统利用迁移学习技术检测前景语音(Foreground Speech, FS),并结合低语等对话线索推断互动边界。在涉及11名参与者的为期38天的真实世界评估中(平均使用天数3.45天,标准差2.73天),系统实现了73.18%的互动检测准确率。对6名参与者的后续反馈显示,系统在检测互动时实现了完美的召回率(无漏报)。研究方法包括使用预训练的YAMNet模型进行前景语音检测,并通过占空比方式处理短音频片段以平衡功耗和检测覆盖率。系统设计还考虑了用户隐私和设备资源限制,通过短时间窗口录音减少敏感内容暴露。初步结果表明,SocialPulse在捕捉日常生活中多样化的社交互动方面具有潜力,为针对社交焦虑等问题的个性化干预奠定了基础。未来工作将进一步优化系统性能,解决长互动分割和耳机使用场景下的检测难题,并通过更大规模的多样化参与者验证系统通用性。
智能手表社交互动检测音频处理实时系统心理健康
使用INT8矩阵引擎的高性能和能效矩阵乘法仿真
📝 作者: Yuki Uchino, Katsuhisa Ozaki, Toshiyuki Imamura
📄 中文摘要:
本文提出了一种基于Ozaki方案II的高性能方法,用于在现代架构上仿真单精度和双精度通用矩阵-矩阵乘法(SGEMM和DGEMM)。近年来,专用低精度矩阵引擎(如NVIDIA Tensor Cores、AMD Matrix Cores等)在深度学习所需的矩阵运算中表现出显著的性能优势,但高精度计算在高性能计算领域仍至关重要。为解决这一挑战,作者利用INT8矩阵引擎,结合Ozaki方案II(基于中国剩余定理的矩阵乘法仿真技术),提出了一种新的仿真方法,并在GH200 Grace Hopper Superchip等硬件上进行了测试。实验结果表明,对于足够大的问题规模,提出的DGEMM仿真相比原生DGEMM实现了1.4倍的加速和43%的能效提升;SGEMM仿真相比原生SGEMM实现了3.0倍的加速和154%的能效提升。此外,与传统仿真方法相比,提出的方法性能提升超过2倍,且能效更优。研究还探讨了精度与性能之间的平衡,表明Ozaki方案II可作为FP32和TF32之间的中间精度方法,并具有扩展到多种浮点格式矩阵乘法的潜力。这一方法有效弥合了AI优化的低精度计算单元与需要高精度的数值计算之间的差距,为高性能计算领域提供了重要的技术支持。作者通过详细的数值实验,比较了精度、吞吐量性能和能效,验证了所提方法的优越性,并指出了未来在误差分析和更广泛应用方面的研究方向。
矩阵乘法仿真高性能计算混合精度计算能效
大规模预训练对从2D图像估计营养含量影响的研究
📝 作者: Michele Andrade, Guilherme A. L. Silva, Val\'eria Santos, Gladston Moreira, Eduardo Luz
📄 中文摘要:
本文研究了大规模预训练数据集对基于2D图像的营养含量估计深度学习模型性能的影响。营养含量估计是一项关键任务,对健康和饮食监测具有重要意义,但由于食物呈现、照明条件的变化以及缺乏深度信息导致的体积和质量推断困难,单凭2D图像完成此任务具有挑战性。此外,现有最先进方法依赖专有数据集进行大规模预训练,限制了研究的再现性。本研究通过在两个大型公开数据集(ImageNet和COYO)上预训练的Vision Transformer (ViT) 模型进行微调和评估,并将其性能与基于专有JFT-300M数据集预训练的最先进方法以及基准CNN模型(InceptionV2和ResNet-50)进行比较。实验在Nutrition5k数据集上进行,该数据集包含带有高精度营养标注的真实食物盘图像。使用平均绝对误差(MAE)和平均绝对百分比误差(MAE%)的评估结果显示,基于JFT-300M预训练的模型显著优于基于公开数据集预训练的模型。出乎意料的是,在COYO数据集上预训练的模型在这一回归任务中的表现不如ImageNet预训练模型,推翻了研究者的初始假设。分析表明,预训练数据集的规模、领域相关性及数据质量对2D营养估计中的迁移学习效果至关重要。本研究强调了专有数据集在实现最先进性能中的关键作用,并指出了公开数据集在性能上与专有数据集的差距,揭示了研究再现性面临的挑战。结论指出,预训练数据的特性和质量对营养估计任务的成功至关重要,单纯依赖大规模公开数据集可能不足以达到最优结果。
营养估计食物识别深度学习视觉变换器预训练
基于雷达的非视距行人定位:针对停放车辆旁突然冲出场景的相机辅助点云解释
📝 作者: Hee-Yeun Kim, Byeonggyu Park, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Se
📄 中文摘要:
本文针对城市环境中路边停车导致的非视距(NLoS)盲区对道路安全构成的挑战,提出了一种基于雷达的行人定位框架,特别关注行人从停放车辆间突然冲出的场景。研究背景源于NLoS区域的行人突然出现可能导致严重交通事故,而现有方法多依赖预定义的空间信息或假设简单的墙面反射,限制了其在动态环境中的适用性。作者提出了一种结合单目相机图像和2D雷达点云数据(PCD)的创新方法,通过图像分割检测停放车辆,利用深度估计推断近似空间特征,并结合雷达点云数据进行精确空间推断,从而实现NLoS行人的早期定位。主要方法包括:首先利用相机图像进行车辆分割和深度估计,获取粗略的空间信息;随后通过雷达点云数据校正深度估计误差,分析反射路径以定位NLoS区域的行人。实验在真实城市道路环境中进行,验证了该方法在多种场景下的有效性,包括单个行人冲出、多个行人依次出现以及视距与非视距行人同时存在的情况。关键发现表明,该方法能够在平均6米的距离内检测到NLoS行人,定位精度达到86.97%,平均绝对误差为0.42米,为驾驶员提供了足够的刹车反应时间。结论指出,该方法显著提升了早期行人检测能力,对提高道路安全具有重要贡献,未来可进一步融合视距内物体信息以增强鲁棒性。
非视距定位雷达点云单目深度估计行人检测智能交通
PyTorch 与 TensorFlow 在深度学习中的比较研究:易用性、性能与部署权衡
📝 作者: Zakariya Ba Alawi
📄 中文摘要:
本文对深度学习领域两大主流框架 TensorFlow 和 PyTorch 进行了全面的比较分析,重点探讨了它们的易用性、性能以及部署权衡。研究背景表明,TensorFlow(由谷歌于2015年发布)和 PyTorch(由 Facebook 于2016年发布)在学术界和工业界均被广泛采用,但设计理念和用户体验存在显著差异。研究方法包括对比两者的编程范式、开发者体验、模型训练速度、推理性能以及部署灵活性,同时结合近期基准测试和文献数据,分析了它们在计算机视觉、自然语言处理等领域的应用实践。关键发现显示,PyTorch 以其动态计算图和 Python 风格的直观性在研究领域占主导地位,提供了更高的灵活性和调试便利性;而 TensorFlow 凭借静态图优化、成熟的生态系统(如 TensorFlow Lite、TensorFlow Serving 和 TensorFlow.js)以及对生产环境的强大支持,在工业部署中更具优势。性能方面,两者各有千秋,PyTorch 在单 GPU 训练和推理延迟上常有优势,而 TensorFlow 在大规模分布式训练和特殊硬件(如 TPU)上表现突出。部署方面,TensorFlow 在移动端和浏览器端部署上更成熟,PyTorch 则通过 TorchScript 和 ONNX 支持逐步缩小差距。生态系统和社区支持方面,PyTorch 在研究论文中的采用率更高,而 TensorFlow 在企业应用中更广泛。结论指出,选择框架需根据具体项目需求(如研究原型设计或生产部署)、团队专长和现有基础设施来决定。未来方向包括统一动态与静态执行范式、提升跨框架互操作性以及整合编译器优化技术(如 XLA 和 JIT),以进一步减少两框架间的差异。
深度学习框架PyTorchTensorFlow易用性部署权衡
无处不在的稀疏矩阵-矩阵乘法
📝 作者: Ayd{\i}n Bulu\c{c}
📄 中文摘要:
本文系统地探讨了稀疏矩阵-矩阵乘法(sparse matrix-matrix multiplication)操作及其在多个数据科学领域的广泛应用,包括机器学习、计算生物学、计算化学、图算法和科学计算。研究背景聚焦于稀疏矩阵与另一矩阵(稀疏或稠密)相乘的基本操作,这种操作在许多应用场景中至关重要,尤其是在需要自定义半环代数或异构代数的情况下。作者详细分类了稀疏矩阵乘法的不同形式,如SpGEMM(稀疏-稀疏矩阵乘法)、SpMM(稀疏-稠密矩阵乘法)、SDDMM(采样稠密-稠密矩阵乘法)等,并分析了它们在不同应用中的具体表现和性能考虑。研究方法包括对这些操作的数学定义、算法设计以及性能评估,特别强调了操作强度(OI)和并行化技术的差异对性能的影响。关键发现包括:SpMM在单节点执行中通常具有更高的操作强度和更好的性能,而SpGEMM在分布式内存环境中面临更多挑战;此外,稀疏矩阵乘法在图神经网络(GNN)、深度学习稀疏性、生物信息学中的序列比对、量子化学中的电子结构计算以及数据库操作中的连接查询等场景中展现了重要价值。作者还指出了稀疏矩阵乘法在硬件优化和算法设计中的未来发展方向,特别是在深度学习中的“稀疏性暮光区”和分布式计算中的超稀疏性问题。结论强调了稀疏矩阵抽象在数据分析和科学计算中的日益重要性,并呼吁开发新的数据结构和算法以应对特定应用需求,同时关注硬件支持的不足和潜在改进空间。
稀疏矩阵乘法高性能计算图神经网络深度学习稀疏性科学计算
利用特权信息进行垃圾检测的学习方法
📝 作者: Matthias Bartolo, Konstantinos Makantasis, Dylan Seychell
📄 中文摘要:
随着全球垃圾污染问题的日益严重,开发有效的自动化垃圾检测工具成为一大挑战。本研究提出了一种创新方法,首次将特权信息(Privileged Information)与深度学习目标检测相结合,以提升垃圾检测的准确性,同时保持模型的高效性。研究背景聚焦于垃圾污染对环境及社会经济的负面影响,以及现有检测技术在准确性和效率方面的不足,尤其是在检测小型垃圾或被草丛、石头部分遮挡的物体时的挑战。研究方法包括:1)提出一种将特权信息融入深度学习目标检测模型的新方法,通过教师-学生模型框架进行知识蒸馏,在不增加模型参数或推理时间的情况下提升性能;2)创新性地将边界框信息编码为二进制掩码,作为特权信息输入到检测模型中,以优化检测引导;3)在五个广泛使用的目标检测模型(Faster R-CNN、RetinaNet、FCOS、SSD 和 SSDLite)上进行性能评估。实验基于知名的 SODA 数据集进行数据集内评估,并通过 BDW 和 UA VVaste 数据集进行跨数据集验证。关键发现表明,该方法在所有模型中均实现了性能的持续提升,不仅在训练数据集内表现出更高的检测精度,而且在其他垃圾检测场景中也具有良好的泛化能力。更为重要的是,这些改进并未增加模型复杂性或额外层级,确保了计算效率和可扩展性。结论指出,该方法为垃圾检测提供了一种实用解决方案,在现实应用中平衡了准确性和效率,未来可进一步探索其在更广泛基准数据集上的泛化能力。
垃圾检测特权信息学习计算机视觉知识蒸馏目标检测
基于钩子技术的反键盘记录欺骗框架的安全开发
📝 作者: Md Sajidul Islam Sajid, Shihab Ahmed, Ryan Sosnoski
📄 中文摘要:
键盘记录器(Keyloggers)作为现代网络安全中的严重威胁,能够悄无声息地捕获用户击键以窃取凭据和敏感信息。传统的防御策略主要集中于检测和移除,但这种方法仅能阻止恶意行为,难以主动误导或干扰攻击者。本研究提出了一种基于API钩子技术的欺骗框架,通过在运行时拦截键盘记录器调用的输入相关API,并注入逼真的诱饵击键数据来误导攻击者。然而,高级键盘记录器日益采用反钩子技术以绕过或检测此类干预措施。为应对这一挑战,本文设计了一个强化的钩子层,能够检测篡改行为并快速恢复被破坏的钩子,确保欺骗的持续性。研究团队针对一个定制的“超级键盘记录器”(包含多种规避策略)以及50个真实世界的恶意软件样本(涵盖十大键盘记录器家族)进行了评估。实验结果表明,该系统成功抵御了复杂的绕过尝试,保持了操作隐秘性,并通过提供诱饵数据可靠地欺骗了攻击者。系统运行时的性能开销极低,对用户体验无明显影响。研究发现,具备弹性的运行时欺骗技术可以在对抗高级威胁中发挥实用且强大的作用,为网络安全防御提供了新的思路。作者还讨论了框架的局限性,如仅限于用户空间操作,无法应对内核级或硬件键盘记录器,并提出了未来将框架与检测管道集成及扩展至其他攻击向量的研究方向。
键盘记录器API钩子网络欺骗反钩子技术网络安全
基于最优传输的自举深度谱聚类
📝 作者: Wengang Guo, Wei Ye, Chunchun Chen, Xin Sun, Christian B\"ohm, Claudia Plant, Susanto Rahardja
📄 中文摘要:
本文提出了一种名为BootSC的深度谱聚类模型,旨在解决传统谱聚类中存在的两个主要问题:分离的优化过程和有限的表示能力。BootSC通过一个端到端的网络联合学习谱聚类的所有阶段,包括亲和矩阵构建、谱嵌入和k-means聚类。研究背景聚焦于无监督学习中对未标记数据进行聚类的挑战,特别是在高维复杂数据中传统方法(如k-means)无法有效捕捉非凸聚类结构的局限性。BootSC利用基于最优传输的高效监督机制自举亲和矩阵和聚类分配矩阵,同时引入语义一致的正交重参数化技术,以显著增强谱嵌入的区分能力。主要方法包括:通过小批量训练实现可扩展性;从头开始学习特定于聚类的亲和矩阵,无需预训练网络;利用最优传输问题形式化谱嵌入和k-means聚类目标,通过Sinkhorn固定点迭代高效求解;以及通过正交Procrustes方法最小化语义不一致性以实现嵌入正交化。实验结果表明,BootSC在五个基准图像数据集上显著优于现有技术。例如,在具有挑战性的ImageNet-Dogs数据集上,BootSC在归一化互信息(NMI)指标上比次优方法提高了16%。此外,BootSC在不平衡和有限数据场景下也表现出鲁棒性。作者通过消融研究和参数敏感性分析进一步验证了各关键组件对性能提升的贡献。结论指出,BootSC为深度谱聚类提供了一种创新且高效的解决方案,尽管在现实应用中仍需解决异构数据分布和资源限制等问题,未来计划结合大语言模型的外部知识进一步提升性能,并通过模型量化和知识蒸馏提高效率。
深度谱聚类最优传输自举学习无监督学习图像聚类
DocVCE:基于扩散的文档图像分类视觉反事实解释
📝 作者: Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed
📄 中文摘要:
随着黑箱人工智能决策系统在现代文档处理流程中的广泛应用,提高其透明度和可靠性变得至关重要,特别是在高风险应用中,决策中的偏差或虚假相关性可能导致严重后果。文档图像分类作为文档处理流程中的关键组成部分,尽管被广泛使用,但其决策过程难以解释。近年来的研究尝试通过特征重要性图来解释文档图像分类模型的决策,但这些图往往难以理解,且无法提供模型学习到的全局特征的洞察。本研究通过引入生成式文档反事实解释,填补了这一研究空白,旨在通过可操作的解释为模型的决策提供有意义的见解。具体而言,本文提出了DocVCE,一种新颖的方法,该方法结合潜在扩散模型和分类器引导,首先生成合理的分布内视觉反事实解释,然后通过分层逐块精炼,寻找最接近目标事实图像的反事实解释。研究在三个不同的文档分类数据集(RVL-CDIP、Tobacco3482 和 DocLayNet)以及三种不同模型(ResNet、ConvNeXt 和 DiT)上,通过定性和定量评估,验证了该方法的有效性,评估标准包括有效性、接近度和真实性。据作者所知,这是首次在文档图像分析中探索生成式反事实解释的工作。本研究不仅为文档图像分类模型的解释提供了新视角,也为提高AI系统透明度迈出了重要一步,具有潜在的广泛应用价值。
文档图像分类反事实解释扩散模型人工智能透明度视觉解释
PIS3R:基于深度3D重建的超大视差图像拼接
📝 作者: Muhua Zhu, Xinhao Jin, Chengbo Wang, Yongcong Zhang, Yifei Xue, Tie Ji, Yizhen Lao
📄 中文摘要:
图像拼接技术旨在将从不同视角拍摄的两幅图像对齐并合成为一幅无缝的宽幅图像。然而,当场景中存在深度变化且相机基线较长时,会产生显著的视差,即场景元素在不同视角下的相对位置差异较大。现有的图像拼接方法在处理此类大视差图像时往往效果不佳。为解决这一挑战,本文提出了一种名为PIS3R的图像拼接解决方案,通过引入深度3D重建的新颖概念,实现了对超大视差图像的鲁棒处理。首先,作者利用基于视觉几何的Transformer模型对输入的超大视差图像进行处理,获取相机内参和外参,同时完成场景的密集3D重建。接着,通过恢复的相机参数,将重建的密集点云重新投影到指定的参考视角,实现像素级对齐并生成初始拼接图像。最后,为解决初始拼接中可能出现的空洞或噪声等伪影,作者提出了一种基于点的图像扩散模块,进一步优化拼接结果。与现有方法相比,PIS3R在处理超大视差图像时表现出更强的鲁棒性,同时在3D摄影测量上下文中完全保留了所有像素的几何完整性,使其可直接应用于结构从运动(SfM)等下游3D视觉任务。实验结果表明,该算法在超大视差图像的拼接精度上显著优于现有方法,无论在定性还是定量评估中均表现出色。这一方法为处理复杂视差场景提供了新的思路,并为3D视觉领域的进一步研究奠定了基础。
图像拼接超大视差深度3D重建视觉几何图像扩散
基于深度学习的自动化超声多普勒角度估计
📝 作者: Nilesh Patil, Ajay Anand
📄 中文摘要:
在多普勒超声临床工作流程中,角度估计是测量血流速度的重要步骤。研究表明,角度估计错误是多普勒血流速度测量中误差的主要来源。本文提出了一种基于深度学习的自动化多普勒角度估计方法。该方法利用2100张人类颈动脉超声图像(包括图像增强)进行开发。研究采用了五种预训练模型提取图像特征,并将这些特征输入到一个定制的浅层网络中进行多普勒角度估计。同时,通过人工观察者对图像进行独立测量以进行比较。实验结果显示,自动化估计与人工估计之间的平均绝对误差(MAE)在所评估模型中为3.9°至9.4°。其中,表现最佳模型的MAE低于临床可接受的多普勒角度误差阈值,从而避免了将正常速度值误分类为狭窄。研究结果表明,基于深度学习的技术在自动化超声多普勒角度估计中具有潜力。这种技术有望集成到商用超声扫描仪的成像软件中,从而提高临床诊断的准确性和效率。本研究为医学影像领域的自动化技术发展提供了重要参考,同时也为减少人为误差、提升多普勒测量的可靠性奠定了基础。
深度学习超声多普勒角度估计医学影像自动化
基于大规模无标签数据的图表示学习用于谣言检测
📝 作者: Chaoqun Cui, Caiyan Jia
📄 中文摘要:
随着社交媒体的发展,谣言传播迅速,对社会和经济造成巨大危害。为此,许多有效的谣言检测方法被提出,其中基于谣言传播结构学习的方法尤为有效。然而,现有方法仍面临诸多问题,包括难以获取大规模标注谣言数据集,导致模型泛化能力较差,且在新事件上的表现下降,因为谣言具有时效性,通常与热门话题或新突发事件相关。为解决上述问题,本研究利用从微博和推特等社交媒体平台爬取的大规模无标签主题数据集,结合声明传播结构,提升图表示学习模型在不同主题上的语义学习能力。研究采用了三种典型的图自监督学习方法(InfoGraph、JOAO 和 GraphMAE)以及两种常用训练策略,验证了通用图半监督方法在谣言检测任务中的性能。此外,为缓解无标签主题数据与谣言数据在时间和主题上的差异,研究还收集了覆盖十年时间跨度(截至2022年的过去十年)且主题多样的微博辟谣平台谣言数据集。实验结果表明,这些通用图自监督学习方法在谣言检测任务中优于之前专门设计的方法,并在少样本条件下取得了良好性能,证明了大规模无标签主题数据集的辅助下模型具有更强的泛化能力。本研究为谣言检测提供了新的视角和方法,展示了自监督学习在处理数据稀缺问题上的潜力,并为未来相关研究奠定了基础。
图表示学习谣言检测自监督学习无标签数据社交媒体
TDSNNs:用于视觉皮层建模的竞争性地形深度脉冲神经网络
📝 作者: Deming Zhou, Yuetong Fang, Zhaorui Wang, Renjing Xu
📄 中文摘要:
灵长类动物的视觉皮层呈现出地形组织特性,即功能相似的神经元在空间上聚集,这种结构被广泛认为能够提高神经处理效率。传统深度人工神经网络(ANNs)虽已被证明能够形成地形表征,但这些模型往往忽略了关键的时间动态特性,导致在目标识别等任务中性能显著下降,同时降低了生物学上的可信度。为解决这一问题,本研究利用脉冲神经网络(SNNs),其固有的基于脉冲的时间动态特性提供了更高的生物学合理性。研究提出了一种新颖的时空约束(STC)损失函数,用于构建地形深度脉冲神经网络(TDSNNs),成功地重现了灵长类视觉皮层从低级感官输入到高级抽象表征的层次化空间功能组织。实验结果表明,STC能够有效生成模拟视觉皮层区域的代表性地形特征。尽管在地形组织引入后,传统ANNs通常会出现显著的性能下降,但本研究的脉冲架构表现出极小的性能损失(在ImageNet数据集上的top-1准确率无下降,而目前表现最佳的地形ANN模型TopoNet下降了3%),并且在类脑特性方面优于地形ANNs。此外,研究揭示了地形组织通过TDSNNs中的脉冲机制促进了高效且稳定的时间信息处理,从而增强了模型的鲁棒性。这些发现表明,TDSNNs在计算性能和类脑特性之间实现了令人信服的平衡,不仅为解释神经科学现象提供了框架,还为设计更高效、更鲁棒的深度学习模型提供了新颖的见解。
脉冲神经网络地形组织视觉皮层建模时空约束类脑计算
湍流动力系统中极端事件前兆预测:基于CNN增强的递归分析方法
📝 作者: Rahul Agarwal, Mustafa A. Mohamad
📄 中文摘要:
本文提出了一种通用的框架,用于预测湍流动力系统中极端事件的前兆。该方法结合了相空间重构技术、递归矩阵和卷积神经网络(CNN),以识别极端事件的前兆信号。研究在三个不同的测试系统上进行了评估:三元湍流交互模型、原型随机各向异性湍流以及Kolmogorov流。该框架具有三大优势:(1)无需阈值的分类策略,避免了主观参数调整;(2)仅需约100个递归矩阵即可高效完成训练;(3)能够泛化到未见过的系统。实验结果显示,该方法在所有测试系统上均表现出强大的预测性能:在三元模型中,检测率达到96%,平均提前时间为1.8个时间单位;在各向异性湍流中,检测率同样为96%,平均提前时间为6.1个时间单位;在Kolmogorov流中,检测率为93%,平均提前时间为22.7个时间单位。这些结果表明,该框架在湍流动力系统中预测极端事件前兆方面具有高度的准确性和可靠性,为湍流相关领域的研究提供了重要的工具和方法支持。作者通过结合先进的机器学习技术与传统的动力系统分析方法,成功实现了对复杂湍流系统中极端事件的早期预警,这对灾害预防和系统稳定性研究具有重要意义。未来的研究可以进一步探索该方法在更广泛的湍流系统和实际应用场景中的适用性。
湍流动力学极端事件预测卷积神经网络递归分析相空间重构
DAS信号识别基础模型及预训练模型下游任务的视觉提示调优
📝 作者: Kun Gui, Hongliang Ren, Shang Shi, Jin Lu, Changqiu Yu, Quanjun Cao, Guomin Gu, Qi Xuan
📄 中文摘要:
分布式声学传感(DAS)技术在多个领域中得到了广泛应用,但由于异构传感环境导致的数据分布差异,数据驱动的人工智能(AI)模型面临跨域泛化能力和标注训练数据不足的挑战。为解决这些问题,本研究提出了一种基于掩码自编码器(Masked Autoencoder)的DAS信号识别基础模型,命名为MAEPD。该模型在包含635,860个样本的数据集上进行预训练,数据集涵盖了DAS步态时空信号、用于周界安全的2D GASF图像、用于管道泄漏的2D时频图像,以及包括鲸鱼发声和地震活动在内的开放数据集信号。通过自监督的掩码重建任务,MAEPD能够捕获DAS信号的深层语义特征。为适应下游识别任务,本研究采用了视觉提示调优(Visual Prompt Tuning, VPT)方法。该方法冻结预训练的主干参数,仅对插入Transformer编码器层中的一小组可学习视觉提示向量进行微调。在NVIDIA GeForce RTX 4080 Super平台上的实验以室内步态识别作为下游任务验证了MAEPD模型的有效性。VPT-Deep方法在仅微调0.322%参数的情况下,分类准确率达到96.94%,比传统的全参数微调(Full Fine Tuning, FFT)方法高出0.61%,并将训练时间缩短了45%。此外,该模型在管道泄漏检测中也表现出色,验证了MAEPD作为基础模型的通用性、高效性和可扩展性。这一方法为解决DAS领域信号识别模型泛化能力有限的问题提供了新的范式,具有重要的理论和应用价值。
分布式声学传感信号识别基础模型视觉提示调优Hawkins掩码自编码器
网格状纠错码用于矩阵乘法:提升纠错能力
📝 作者: Hao Shi, Zhengyi Jiang, Zhongyi Huang, Bo Bai, Gong Zhang, Hanxu Hou
📄 中文摘要:
矩阵乘法在深度学习模型训练中是核心操作,广泛应用于前向和反向传播过程。然而,在大规模分布式训练环境中,静默数据损坏(SDC)对模型收敛性和预测精度构成重大威胁,尤其是在矩阵乘法过程中。这类错误因其瞬时性和非侵入性往往难以被检测到,导致错误随时间传播和累积,最终显著降低模型性能。本文提出了一种专门为矩阵乘法操作设计的新型纠错编码框架,旨在检测和纠正计算过程中可能出现的多个错误。通过采用基于网格的结构化编码方案,该方法增强了对所有参与矩阵的错误定位和纠正能力,从而显著提高了计算的容错性。实验结果表明,该方法能够在GPU架构上以100%的可靠性确定性地纠正分布在三个矩阵中的最多两个错误符号,同时仅增加24%的计算时间开销。此外,本文对编码方案的纠错特性进行了严格的理论分析,确立了其在明确定义的故障模型下的正确性和鲁棒性。研究结果表明,该框架在分布式深度学习训练中具有重要的应用价值,能够有效缓解静默数据损坏带来的影响,为构建更可靠的计算系统提供了新的思路。
矩阵乘法纠错码分布式训练静默数据损坏深度学习
基于深度学习的可扩展图像到3D立面解析器用于生成热3D建筑模型
📝 作者: Yinan Yu, Alex Gonzalez-Caceres, Samuel Scheidegger, Sanjay Somanath, Alexander Hollberg
📄 中文摘要:
本文提出了一种名为可扩展图像到3D立面解析器(SI3FP)的创新性方法,用于生成具有3级细节水平(LoD3)的热3D建筑模型,以支持现有建筑的早期翻新规划。研究背景在于建筑翻新对气候影响至关重要,而早期规划需要基于包含窗户等特征的热3D模型进行模拟,但可扩展且准确地识别这些特征仍是一个挑战。SI3FP通过结合计算机视觉和深度学习技术,从图像中提取几何信息,与传统依赖分割和投影的方法不同,该方法直接在正交图像平面上建模几何基元,减少了透视失真,并提供统一的接口。SI3FP支持稀疏数据(如谷歌街景)和密集数据(如手持相机)两种来源。在瑞典典型住宅建筑上的测试表明,SI3FP在窗户与墙壁比例估计中的误差约为5%,显示出足够的精度,适用于早期翻新分析。该方法不仅促进了大规模能源翻新规划,还在城市发展和规划领域具有更广泛的应用前景。研究结果表明,SI3FP在处理不同类型数据源时表现出较强的适应性和准确性,为建筑热模型的自动化生成提供了一种高效的解决方案。作者还讨论了该方法在实际应用中的潜在扩展性,以及如何进一步优化算法以适应更复杂的建筑结构和环境条件。总之,SI3FP为建筑翻新和城市规划提供了一个有力的工具,具有重要的实用价值和研究意义。
深度学习3D建筑模型图像解析建筑翻新城市规划
基础模型在有丝分裂图像分类中的基准测试
📝 作者: Jonas Ammeling, Jonathan Ganz, Emely Rosbach, Ludwig Lausser, Christof A. Bertram, Katharina Breinin
📄 中文摘要:
本研究探讨了基础模型在有丝分裂图像分类中的应用,特别是在病理学领域中数据量和多样性对深度学习模型性能的影响。由于特定任务的标注图像通常有限,自监督学习技术通过利用大量未标注数据训练大规模神经网络(即基础模型),生成了语义丰富的特征向量。这些特征向量能够以最小的训练成本泛化到新任务,从而提升模型性能和鲁棒性。有丝分裂计数作为一种独立预后标志物,对特定肿瘤的预后评估和肿瘤分级系统至关重要。本文研究了多个当前基础模型的数据扩展规律,并评估了它们在未见肿瘤领域中的鲁棒性。除了常用的线性探针范式外,研究还通过低秩适应(LoRA)方法调整模型的注意力机制,并将所有模型与端到端训练的基线模型(包括CNN和Vision Transformers)进行比较。结果表明,经过LoRA适应的基础模型性能优于标准线性探针适应的模型,仅用10%的训练数据即可接近100%数据可用性时的性能水平。此外,最新基础模型的LoRA适应几乎消除了在未见肿瘤领域中的性能差距。然而,传统架构的完全微调仍然具有竞争力的性能。研究表明,基础模型结合LoRA适应技术在数据受限场景下具有显著优势,为医学图像处理领域提供了重要的技术支持,同时也揭示了传统模型在特定任务中的持续竞争力。
基础模型有丝分裂分类医学图像处理低秩适应数据扩展
RAIDX:一种基于检索增强生成和GRPO强化学习的深度伪造检测与可解释性框架
📝 作者: Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng
📄 中文摘要:
随着人工智能生成模型的快速发展,超逼真图像的生成已成为可能,但也带来了通过广泛传播虚假信息所引发的伦理风险。当前的深度伪造检测方法主要分为面向人脸的特定检测器和通用AI生成内容检测器两大类,这些方法通常将检测视为分类任务,缺乏对决策过程的透明解释。虽然一些基于大型语言模型(LLM)的方法提供了可解释性,但它们存在分析粒度较粗和依赖劳动密集型标注的问题。本文提出了一种名为RAIDX(检索增强图像深度伪造检测与可解释性)的创新框架,通过结合检索增强生成(RAG)和群体相对策略优化(GRPO),显著提升了检测精度和决策的可解释性。具体而言,RAIDX利用RAG技术整合外部知识以提高检测准确性,并通过GRPO自主生成细粒度的文本解释和显著性图,消除了对大量手动标注的需求。在多个基准数据集上的实验结果表明,RAIDX在识别真伪内容方面表现出色,同时通过文本描述和显著性图提供了可解释的推理依据,达到了最先进的检测性能,并推动了深度伪造识别的透明度。RAIDX是首个将RAG与GRPO相结合的统一框架,填补了精度和可解释性方面的关键空白。本研究的代码和模型将公开发布,为后续研究提供支持。
深度伪造检测检索增强生成强化学习可解释性人工智能伦理
ESDD 2026:环境声音深度伪造检测挑战评估计划
📝 作者: Han Yin, Yang Xiao, Rohan Kumar Das, Jisheng Bai, Ting Dang
📄 中文摘要:
近年来,音频生成系统的快速发展使得高度逼真的沉浸式音景创作成为可能,广泛应用于电影和虚拟现实领域。然而,这些技术也引发了潜在滥用的担忧,例如生成用于虚假视频的欺骗性音频内容以及传播误导性信息。目前,用于环境声音深度伪造检测(ESDD)的数据集在规模和音频类型上存在局限性。为解决这一问题,研究团队提出了EnvSDD,这是首个专为ESDD设计的大型精选数据集,包含45.25小时的真实声音和316.7小时的伪造声音。基于EnvSDD数据集,研究团队推出了环境声音深度伪造检测挑战赛。该挑战赛设置了两个不同的赛道:未见生成器的ESDD和黑盒低资源ESDD,涵盖了现实场景中遇到的多种挑战。该挑战赛将与2026年IEEE国际声学、语音与信号处理会议(ICASSP 2026)联合举办,旨在推动环境声音深度伪造检测技术的发展,应对音频伪造技术带来的安全威胁。通过构建大规模数据集和设计多样化的挑战赛道,本研究为音频伪造检测领域提供了重要的资源和平台。研究结果有望提升对深度伪造音频的识别能力,为防止音频欺诈和信息安全提供技术支持,同时也为未来的研究奠定了基础。
环境声音深度伪造检测音频生成数据集挑战赛
连接仿真与实验:混凝土损伤分类的自监督域适应框架
📝 作者: Chen Xu, Giao Vu, Ba Trung Cao, Zhen Liu, Fabian Diewald, Yong Yuan, G\"unther Meschke
📄 中文摘要:
混凝土劣化的可靠评估对于确保工程结构的安全性和长期使用至关重要。本研究提出了一种自监督域适应框架,用于基于尾波信号的稳健混凝土损伤分类。为支持该框架,开发了一个先进的虚拟测试平台,结合了混凝土劣化的多尺度建模与超声波传播仿真。该平台能够在受控条件下生成大规模标注的合成数据,从而减少对昂贵且耗时的实验标注的依赖。然而,仅在合成数据上训练的神经网络在应用于实验数据时往往因域偏移而性能下降。为弥合这一域差距,提出的框架集成了域对抗训练、最小类别混淆损失以及Bootstrap Your Own Latent (BYOL)策略。这些组件协同工作,促进了从标注仿真域到未标注实验域的有效知识迁移,实现了混凝土损伤的准确可靠分类。大量实验表明,该方法取得了显著的性能提升,准确率达到0.7762,宏F1分数为0.7713,优于普通的1D CNN基线和六种代表性域适应技术。此外,该方法在多次训练中表现出较高的鲁棒性,且仅引入了最小的额外计算成本。这些发现突显了该仿真驱动且标注高效的框架在结构健康监测实际应用中的潜力,为解决域偏移问题提供了一种创新解决方案,同时降低了实验数据获取的成本,具有重要的工程应用价值。
混凝土损伤分类自监督学习域适应结构健康监测仿真数据
基于事件相机的无人机检测
📝 作者: Gabriele Magrini, Lorenzo Berlincioni, Luca Cultrera, Federico Becattini, Pietro Pala
📄 中文摘要:
随着无人机技术的普及,其带来的安全和安保挑战日益显著。传统的监控系统,尤其是基于常规帧的相机,由于无人机体积小、机动性高,常因运动模糊和在复杂光照条件下的表现不佳而难以可靠检测。本文综述了事件视觉这一新兴领域作为解决上述问题的有效方案。事件相机几乎完全消除了运动模糊,并能在极端光照条件下实现一致的检测效果。其稀疏、异步的输出能够抑制静态背景,从而实现低延迟地聚焦于运动线索。本文回顾了事件视觉在无人机检测领域的最新研究进展,包括数据表示方法和使用脉冲神经网络的先进处理流程。讨论不仅限于简单的检测,还涵盖了实时跟踪、轨迹预测以及通过螺旋桨特征分析进行唯一身份识别等更复杂的任务。通过分析当前方法、可用数据集以及该技术的独特优势,本研究表明,事件视觉为下一代可靠、低延迟、高效的反无人机系统提供了强大的基础。事件相机的高动态范围和时间分辨率使其在动态目标检测中具有显著优势,尤其是在传统相机失效的场景下。此外,本文还探讨了事件视觉在处理无人机相关任务时的潜在挑战和未来发展方向,强调了其在安全监控领域的广阔应用前景。总之,事件视觉技术为解决无人机检测难题提供了创新性视角,并有望推动相关领域的发展。
事件相机无人机检测计算机视觉脉冲神经网络低延迟
深度学习在皮肤病图像分析中的视觉偏差与可解释性研究
📝 作者: Enam Ahmed Taufik, Abdullah Khondoker, Antara Firoz Parsa, Seraj Al Mahmud Mostafa
📄 中文摘要:
皮肤病分类是一项关键但具有挑战性的任务,因其类别间相似性高、类别内变异性大以及病变纹理复杂。深度学习驱动的计算机辅助诊断(CAD)系统在自动化皮肤病评估方面显示出潜力,但其性能高度依赖于图像预处理和模型架构。本研究提出了一种用于多类皮肤病分类的深度学习框架,系统性地评估了三种图像预处理技术:标准RGB、CMY颜色空间转换和对比度受限自适应直方图均衡化(CLAHE)。研究对预训练的卷积神经网络(DenseNet201、Efficient-NetB5)和基于Transformer的模型(ViT、Swin Transformer、DinoV2 Large)进行了性能基准测试,采用准确率和F1分数作为评估指标。结果表明,结合RGB预处理的DinoV2模型在所有变体中取得了最高的准确率(高达93%)和F1分数。此外,通过对RGB输入应用Grad-CAM可视化技术,实现了精确的病变定位,从而增强了模型的可解释性。研究还发现,不同预处理方法对模型性能的影响显著,例如CMY转换在某些情况下会导致性能下降,而CLAHE在纹理增强方面表现出一定的优势。这些发现强调了有效预处理和模型选择在构建稳健且可解释的皮肤病CAD系统中的重要性,为未来的研究提供了指导方向,并为临床应用中的模型部署奠定了基础。研究结论指出,优化预处理策略和选择合适的深度学习架构是提升诊断精度的关键,同时可解释性工具如Grad-CAM的应用有助于增加医生对模型决策的信任。
深度学习皮肤病分类图像预处理可解释性计算机辅助诊断
代数可观测的物理信息神经网络及其在流行病建模中的应用
📝 作者: Mizuka Komatsu
📄 中文摘要:
本文研究了一种基于物理信息神经网络(PINN)的深度学习框架,该框架通过将数据背后的控制方程整合到损失函数中,用于估计流行病模型中的状态变量和参数。流行病模型通常由常微分方程描述,而在实际应用中,并非所有与模型描述的人群相关的轨迹数据都能被测量。使用部分测量数据来估计未测量的状态变量和流行病参数是一项具有挑战性的任务。本文提出了一种代数可观测的PINN方法,通过结合代数理论和神经网络技术,解决了这一问题。研究中,作者设计了一种新的损失函数形式,将物理约束与数据驱动方法相结合,以提高模型对未观测变量的预测精度。此外,该方法还能够同时估计模型参数,从而为流行病传播动态提供更全面的分析。实验结果表明,该方法在基于部分观测数据的流行病模型中表现出色,尤其是在预测未测量状态变量和参数估计方面,相较于传统方法具有显著优势。作者通过多个流行病学案例验证了方法的有效性,包括SIR模型和其他复杂模型,展示了其在处理现实世界数据时的鲁棒性和适应性。结论指出,代数可观测的PINN不仅为流行病建模提供了新的工具,也为其他受物理约束驱动的科学问题提供了潜在的应用前景。
物理信息神经网络流行病建模代数可观测性参数估计深度学习
基于YOLOv8的深度学习模型用于自动化家禽疾病检测与健康监测
📝 作者: Akhil Saketh Reddy Sabbella, Ch. Lakshmi Prachothan, Eswar Kumar Panta
📄 中文摘要:
在家禽养殖行业中,及时检测鸡只疾病对于避免经济损失至关重要。传统方法依赖人工观察,不仅耗时耗力,还容易出错。本研究提出了一种基于人工智能的解决方案,利用YOLOv8深度学习模型进行实时目标检测,开发了一个能够分析高分辨率鸡只图像的系统。YOLOv8通过识别鸡只行为和外观的异常特征来检测疾病迹象。研究使用了一个大规模的标注数据集对模型进行训练,确保了实时准确识别受感染鸡只的能力,并能及时向农场管理者发出警告,以便采取快速行动。该AI技术通过促进早期疾病识别、减少人工检查需求以及提升大规模农场的生物安全性,显著改善了鸡只健康管理。YOLOv8的实时特性为改进农场管理技术提供了一种可扩展且高效的方法。实验结果表明,该系统在疾病检测的准确性和响应速度上均表现出色,为家禽养殖行业的自动化和智能化管理提供了新的可能性。研究还讨论了该技术在实际应用中的潜在挑战,如数据集的多样性和模型对复杂环境的适应性,并提出了未来改进方向,包括与其他传感器技术的集成以进一步提升监测效果。总之,本研究为家禽健康监测提供了一种创新且实用的工具,具有重要的应用价值。
YOLOv8深度学习家禽疾病检测健康监测人工智能
基于改进VGG19框架的准确且可解释的实时骨折检测
📝 作者: Md. Ehsanul Haque, Abrar Fahim, Shamik Dey, Syoda Anamika Jahan, S. M. Jahidul Islam, Sakib Rokoni,
📄 中文摘要:
骨折的早期准确检测对于尽早启动治疗、避免患者治疗延误及改善预后至关重要。然而,X射线图像的解读是一项耗时且易出错的任务,尤其是在缺乏放射学专业知识的资源有限情况下。此外,当前使用的深度学习方法通常存在误分类问题,且缺乏对临床使用的可解释性说明。为解决这些挑战,本研究提出了一种基于改进VGG-19模型的自动化骨折检测框架。该框架结合了复杂的预处理技术,包括对比度受限自适应直方图均衡化(CLAHE)、Otsu阈值分割和Canny边缘检测等,以增强图像清晰度并促进特征提取。同时,研究采用了可解释性人工智能方法Grad-CAM,生成模型决策过程的可视化热图,帮助临床医生理解模型的决策依据,从而增强信任并支持进一步的临床验证。该框架被部署于实时Web应用中,医疗专业人员可上传X射线图像并在0.5秒内获得诊断反馈。改进后的VGG-19模型表现出色,分类准确率达到99.78%,AUC得分为1.00,性能极为优异。该框架为骨折检测提供了一种可靠、快速且可解释的解决方案,有效提升了诊断效率和患者护理质量。本研究通过结合高精度模型和可解释性工具,为医学图像处理领域提供了一个重要的技术进步,具备广泛的临床应用潜力。
骨折检测VGG-19可解释性AI医学图像处理实时诊断
深度学习在超声剪切波弹性成像中是否需要预处理?
📝 作者: Sarah Grube, S\"oren Gr\"unhagen, Sarah Latus, Michael Meyling, Alexander Schlaefer
📄 中文摘要:
本研究探讨了在基于深度学习的超声剪切波弹性成像中,超声图像预处理步骤的必要性。超声剪切波弹性成像是一种非侵入性方法,用于评估软组织弹性,对多种诊断应用具有重要价值。然而,其在不同系统和处理流程中的泛化能力和标准化程度仍有限。近期文献讨论了图像处理步骤对可靠和可重复弹性分析的影响。本文通过研究不同预处理程度的输入图像(从完全成形的过滤超声图像到原始射频数据),评估了三维卷积神经网络在预测时空超声图像中剪切波速度的表现,并将深度学习方法与传统的飞行时间方法在四个不同弹性水平的明胶体模上进行比较。研究结果表明,无论预处理程度如何,所有弹性组的预测剪切波速度均存在统计学上的显著差异。尽管预处理在性能指标上略有提升,但研究显示深度学习方法即使使用未经处理的原始射频数据,也能可靠地区分不同弹性组。这一发现表明,基于深度学习的方法可能减少传统超声预处理步骤的需求及其带来的偏差,从而实现更快、更可靠的临床弹性评估。本研究为超声剪切波弹性成像的临床应用提供了新的视角,强调了深度学习在简化处理流程和提高诊断效率方面的潜力。
超声剪切波弹性成像深度学习预处理射频数据弹性评估
扩展人工智能用于前列腺癌MRI检测以实现基于人群的筛查和全球多民族人群的初级诊断(研究方案)
📝 作者: Anindo Saha (on behalf of the PI-CAI, ProCAncer-I, COMFORT, STHLM3-MRI,PRIME consortia), Joeran S. B
📄 中文摘要:
本研究是一项跨洲际的验证性研究,旨在开发并验证PI-CAI-2B模型,这是一种高效的下一代人工智能系统,用于在MRI上检测Gleason评分组≥2的前列腺癌。研究纳入了来自22个国家46个城市的22,481次MRI检查(涉及21,288名患者)作为回顾性队列,用于模型的训练和外部验证。其中,20,471个病例(19,278名患者,来自14个国家的26个城市)来源于欧盟Horizon项目(ProCAncer-I、COMFORT)以及欧洲、北美、亚洲和非洲的12个独立中心,用于训练和内部测试。此外,来自欧洲、北美洲、南美洲、亚洲和澳大利亚的2010个病例(2010名患者,来自12个国家的20个外部城市)用于外部测试,这些数据来源于基于人群的筛查(STHLM3-MRI、IP1-PROSTAGRAM试验)和初级诊断设置(PRIME试验)。研究的主要终点是AI评估与标准护理诊断(即由专家泌尿病理学家在组织病理学上的临床评估,或至少两名专家泌尿生殖放射科医生在共识下的评估)在外部测试队列中检测Gleason评分组≥2前列腺癌的一致性比例。统计分析计划预先设定诊断可互换性假设,以PI-RADS≥3(初级诊断)或≥4(筛查)为临界值,考虑0.05的绝对误差范围,并参考PI-CAI观察者研究(62名放射科医生阅读400个病例)的读者估计。次要指标包括AI系统的接收者操作特征曲线下的面积(AUROC),并按影像质量、患者年龄和患者种族进行分层,以识别潜在的偏差。本研究为人工智能在前列腺癌诊断中的大规模应用提供了重要依据,并探索了其在全球多民族人群中的适用性。
人工智能前列腺癌MRI检测人群筛查多民族研究
深度神经网络驱动的自适应滤波
📝 作者: Qizhen Wang, Gang Wang, Ying-Chang Liang
📄 中文摘要:
本文提出了一种基于深度神经网络(DNN)的自适应滤波(AF)框架,旨在解决自适应滤波中长期存在的泛化能力挑战。传统自适应滤波框架通常注重显式成本函数的设计,而本文提出的框架则将范式转向直接梯度获取。深度神经网络作为一种通用的非线性算子,被结构化地嵌入到自适应滤波系统的核心架构中,建立了滤波残差与学习梯度之间的直接映射关系。研究采用最大似然作为隐式成本函数,使得推导出的算法具有本质上的数据驱动特性,从而具备出色的泛化能力。这一特性通过在多种非高斯场景下进行的广泛数值实验得到了验证。此外,本文还详细开展了相应的均值和均方稳定性分析。实验结果表明,该框架在处理复杂非线性信号时表现出显著的优势,尤其是在传统方法难以适应的非高斯环境中。通过将深度学习与自适应滤波相结合,本研究不仅提升了滤波算法的性能,还为信号处理领域中数据驱动方法的进一步发展提供了新的思路。总体而言,本文提出的方法在理论和实践上均具有重要意义,为解决自适应滤波中的泛化问题提供了创新性解决方案,并为未来相关研究奠定了坚实基础。
深度神经网络自适应滤波泛化能力数据驱动非高斯场景
基于HRTF定位线索的双耳声音事件定位与检测神经网络用于人形机器人
📝 作者: Gyeong-Tae Lee
📄 中文摘要:
人形机器人需要同时进行声音事件类型和方向的估计以实现情境感知,但传统的双通道输入在高度估计和前后混淆问题上存在困难。本文提出了一种双耳声音事件定位与检测(BiSELD)神经网络来解决这些挑战。BiSELDnet通过双耳输入特征学习时频模式和头部相关传递函数(HRTF)定位线索。研究引入了一种新颖的八通道双耳时频特征(BTFF),包括左右梅尔频谱图、V图、双耳时间差(ITD)图(低于1.5 kHz)、双耳电平差(ILD)图(高于5 kHz且具有前后不对称性)以及频谱线索(SC)图(高于5 kHz用于高度估计)。BTFF的有效性在全向、水平和中值平面上得到了验证。基于高效Trinity模块的BiSELDnet被实现,用于输出每个声音事件类别的时间序列方向向量,从而实现同时检测和定位。研究还提出了向量激活图(VAM)可视化方法来分析网络学习过程,确认BiSELDnet在高度估计中关注N1槽频率。在城市背景噪声条件下的比较评估表明,所提出的BiSELD模型在双耳输入下显著优于最先进的SELD模型。研究结果表明,该方法在提升人形机器人声音感知能力方面具有重要潜力,为复杂环境下的声音事件定位与检测提供了新的解决方案,同时也为基于HRTF的神经网络设计提供了理论支持。
双耳声音定位神经网络人形机器人HRTF线索声音事件检测
揭秘间质性肺病:利用掩码自编码器进行诊断
📝 作者: Ethan Dack, Lorenzo Brigato, Vasilis Dedousis, Janine Gote-Schniering, Cheryl, Hanno Hoppe, Aristom
📄 中文摘要:
本研究探讨了掩码自编码器(Masked Autoencoders, MAEs)在间质性肺病诊断中的应用潜力。MAEs 是一种强大的无监督学习方法,能够从无标注数据中学习鲁棒且信息丰富的特征表示,这在标注影像数据集稀缺的弥漫性肺病研究领域尤为重要。研究团队收集了超过5000张胸部计算机断层扫描(CT)图像,包括内部数据和公开数据集中的相关病症影像(如COVID-19和细菌性肺炎),这些病症在放射学上表现出相似的模式。通过在这些数据上预训练MAE模型,并将其微调用于下游的弥漫性肺病分类任务,研究发现MAE能够有效提取临床上有意义的特征,并在缺乏大规模标注数据集的情况下显著提升诊断性能。实验结果表明,MAE不仅克服了数据标注不足的限制,还为医学影像分析提供了一种高效的特征学习方法。研究还公开了相关代码和模型,为后续研究提供了资源支持。这一方法在间质性肺病的早期诊断和精准医疗中具有潜在的应用价值,为解决医学影像数据稀缺问题提供了新的思路。
间质性肺病掩码自编码器医学影像无监督学习诊断性能
TotalRegistrator:面向CT图像配准的轻量级基础模型研究
📝 作者: Xuan Loc Pham, Gwendolyn Vuurberg, Marjan Doppen, Joey Roosen, Tip Stille, Thi Quynh Ha, Thuy Duong
📄 中文摘要:
图像配准是临床实践中分析纵向和多期CT图像的基础技术。然而,现有方法大多针对单一器官应用,限制了其在其他解剖区域的泛化能力。本研究提出了TotalRegistrator,一种能够同时对多个解剖区域进行配准的图像配准框架。该框架基于标准的UNet架构,并引入了一种新颖的场分解策略,模型设计轻量化,训练仅需11GB GPU内存。为了训练和评估该方法,研究团队构建了一个大规模纵向数据集,包含695个来自不同时间点的全身(胸-腹-盆)配对CT扫描图像。研究将TotalRegistrator与一种通用的经典迭代算法和一个最近的图像配准基础模型进行了基准测试。此外,为了进一步评估模型的鲁棒性和泛化能力,研究在三个外部数据集上进行了测试,包括Learn2Reg挑战赛的公开胸部和腹部数据集,以及来自合作医院的私有多期腹部数据集。实验结果显示,在内部数据集上,TotalRegistrator在多器官腹部配准方面普遍优于基准方法,尽管在肺部对齐性能上略有下降。在分布外数据集上,尽管未针对特定任务进行微调,该模型仍取得了与领先的单一器官模型相当的竞争结果,展现出较强的泛化能力。研究代码将在https://github.com/DIAGNijmegen/oncology_image_registration.git上公开。本研究为医学影像处理领域提供了一种高效且通用的图像配准解决方案,具有重要的临床应用潜力。
图像配准CT图像轻量级模型多器官配准医学影像处理
多标签胸部X射线分类中不确定性基准测试及其解耦研究
📝 作者: Simon Baur, Wojciech Samek, Jackie Ma
📄 中文摘要:
在医学影像领域,可靠的不确定性量化对于可信的决策制定和人工智能模型的部署至关重要。尽管先前研究已通过信息理论方法探讨了神经网络在合成数据或定义明确的数据环境(如自然图像分类)中量化预测不确定性、认知不确定性和偶然不确定性的能力,但其在真实医学诊断任务中的适用性仍未被充分探索。本研究针对多标签胸部X射线分类任务,使用MIMIC-CXR-JPG数据集,进行了广泛的不确定性量化基准测试。我们评估了13种不确定性量化方法,涵盖了基于卷积神经网络(ResNet)和基于Transformer的架构(Vision Transformer),并在多种任务中进行了测试。此外,我们将证据深度学习(Evidential Deep Learning)、异质分类神经网络(HetClass NNs)和深度确定性不确定性(Deep Deterministic Uncertainty)方法扩展到多标签设置。通过分析,我们深入了解了不确定性估计的有效性以及解耦认知不确定性和偶然不确定性的能力,揭示了不同方法和架构的具体优势与局限性。研究结果表明,不同方法在处理医学影像数据时表现出显著的差异,某些方法在特定架构上更具优势,而其他方法则在解耦不确定性类型时表现更佳。这些发现为未来在医学影像领域中改进不确定性量化方法提供了重要参考,同时也为构建更可靠的AI诊断系统奠定了基础。
不确定性量化医学影像胸部X射线多标签分类深度学习
IVIM MRI中体素级监督模型不确定性量化的综合框架
📝 作者: Nicola Casali, Alessandro Brusaferri, Giuseppe Baselli, Stefano Fumagalli, Edoardo Micotti, Gianluig
📄 中文摘要:
本文提出了一种基于深度集成(Deep Ensembles, DE)和混合密度网络(Mixture Density Networks, MDNs)的概率深度学习框架,用于解决扩散加权MRI中体素内非相干运动(IVIM)参数估计的不适定逆问题及对噪声的高敏感性问题,特别是在灌注部分的参数估计中。该框架能够估计总预测不确定性,并将其分解为偶然不确定性(Aleatoric Uncertainty, AU)和认知不确定性(Epistemic Uncertainty, EU)。研究方法通过与非概率神经网络、贝叶斯拟合方法以及单一高斯参数化的概率网络进行基准比较,验证了其有效性。监督训练在合成数据上进行,并在模拟数据和两个体内数据集上进行评估。不确定性量化的可靠性通过校准曲线、输出分布的锐度以及连续排名概率分数(CRPS)进行评估。结果表明,MDNs在D和f参数的预测分布上表现出更好的校准性和锐度,尽管在D*参数上略显过自信。稳健变异系数(RCV)显示MDNs在体内的D*估计比高斯模型更平滑。尽管训练数据覆盖了预期的生理范围,但体内数据中较高的EU表明与真实采集条件存在不匹配,强调了引入EU的重要性,而DE框架允许了这一操作。总体而言,本文提出了一种综合性的IVIM拟合框架,结合不确定性量化,能够识别和解释不可靠的估计结果。该方法还可以通过适当的架构和模拟调整,适用于其他物理模型的拟合。
不确定性量化IVIM MRI深度学习混合密度网络医学影像
NACHOS:面向硬件约束的早退神经网络的神经架构搜索
📝 作者: Matteo Gambella, Jary Pomponi, Simone Scardapane, Manuel Roveri
📄 中文摘要:
早退神经网络(EENNs)通过在标准深度神经网络(DNN)中引入早退分类器(EECs),实现在处理中间阶段即可提供预测结果的功能,当分类置信度达到足够水平时即可提前退出。这种设计在有效性和效率方面带来了诸多益处。然而,目前EENNs的设计主要依赖专家手动完成,这是一个复杂且耗时的任务,需要综合考虑EECs的放置位置、阈值设置以及计算开销等多个方面。为解决这一问题,研究领域开始探索使用神经架构搜索(NAS)来自动化EENNs的设计。尽管如此,文献中针对EENNs的全面NAS解决方案仍然较少,特别是在同时考虑主干网络和EECs的联合设计策略方面,仍是一个未解决的开放问题。本文提出了NACHOS(Neural Architecture Search for Hardware Constrained Early Exit Neural Networks),这是首个针对硬件约束下EENNs设计的NAS框架,旨在满足推理时对精度和乘累加(MAC)操作数量的约束。NACHOS通过联合设计主干网络和EECs,筛选出一组符合约束条件的Pareto最优解,即在精度和MAC操作数量之间实现最佳权衡的解决方案。实验结果表明,NACHOS设计的模型与当前最先进的EENNs相比具有竞争力。此外,本文还研究了两种新型正则化项的有效性,这些正则化项专门用于优化EENN的辅助分类器。通过这一框架,NACHOS为自动化设计高效且高精度的早退神经网络提供了重要工具,可能显著提升深度学习模型在资源受限环境下的应用能力。研究结论表明,NACHOS不仅推动了EENNs设计自动化进程,也为硬件约束下的神经网络优化提供了新的思路。
早退神经网络神经架构搜索硬件约束深度学习优化设计
CapsoNet:一种用于视频胶囊内窥镜多类异常检测的CNN-Transformer集成模型
📝 作者: Arnav Samal, Ranya Batsyas
📄 中文摘要:
本文提出了一种名为CapsoNet的深度学习框架,专为Capsule Vision 2024挑战赛设计,旨在对视频胶囊内窥镜(VCE)图像进行多类异常分类。CapsoNet结合了卷积神经网络(CNN)和基于Transformer的架构,通过集成方法捕捉图像中的局部和全局视觉特征。该模型在一个包含超过50,000张标注帧的数据集上进行训练和评估,数据集涵盖了十种异常类别,数据来源于三个公开数据集和一个私有数据集。为解决类别不平衡问题,研究团队采用了焦点损失(focal loss)、加权随机采样以及广泛的数据增强策略。所有模型均经过全面微调,以在集成框架中实现性能最大化。在官方验证集上,CapsoNet取得了86.34%的平衡准确率和0.9908的平均AUC-ROC值,使团队Seq2Cure在比赛中获得第五名。研究背景表明,视频胶囊内窥镜作为一种非侵入式诊断工具,在检测消化道疾病中具有重要价值,但自动异常检测仍面临图像质量、类别多样性和数据不平衡等挑战。CapsoNet通过创新的模型设计和训练策略有效应对了这些问题,其关键发现包括集成模型在多类分类任务中的优越性能以及数据增强对提升模型鲁棒性的重要作用。结论指出,CapsoNet为VCE图像分析提供了一种高效的解决方案,并具有进一步优化和临床应用的潜力。相关实现代码已公开,供学术界和工业界参考。
视频胶囊内窥镜深度学习多类异常检测CNN-Transformer医学影像
因果驱动的模型鲁棒性审计
📝 作者: Nathan Drenkow, William Paul, Chris Ribaudo, Mathias Unberath
📄 中文摘要:
本文提出了一种新的深度神经网络(DNN)鲁棒性审计方法,旨在揭示模型对现实世界中复杂成像条件的敏感性,这些条件往往导致DNN性能显著下降。传统的鲁棒性审计通常局限于孤立的成像效应或失真,无法有效转移到现实世界中更为复杂或细微的图像损坏情况。为解决这一问题,本研究引入了因果推理方法,通过因果模型明确编码关于领域相关因素及其相互作用的假设,测量DNN对导致复杂失真的成像过程因素的敏感性。研究通过在自然图像和渲染图像上的广泛实验,涵盖多种视觉任务,证明了该方法仅使用观察性领域数据即可可靠地估计每个因素对DNN性能的因果效应。这些因果效应将DNN的敏感性与感兴趣领域中成像流程的可观察属性直接关联起来,从而降低DNN在该领域部署时出现意外失败的风险。研究结果表明,该方法能够有效识别和量化影响模型鲁棒性的关键因素,为提高DNN在现实世界中的可靠性和适应性提供了重要工具。此外,本文还讨论了如何利用因果效应分析来指导模型改进和优化,以应对特定领域的挑战。
深度神经网络鲁棒性审计因果推理成像条件模型性能
基于Copula和广义特征函数的可解释CNN深度特征密度估计
📝 作者: David Chapman, Parniyan Farvardin
📄 中文摘要:
本文提出了一种新颖的经验方法,用于估计卷积神经网络(CNN)深度特征的概率密度函数(PDF)。深度特征PDF的估计是一项重要任务,因为它能够为深度表征提供新的见解,同时对基于密度的异常检测等下游任务的可行性具有重要意义。由于维度灾难(CoD)以及人类理解高维相互依赖性的能力有限,深度特征PDF的可解释估计面临挑战。本研究结合Copula分析和正交矩方法(MOM),直接估计多变量深度特征PDF的广义特征函数(GCF)。研究发现,非负深度CNN特征在一维边缘分布上并不能很好地被高斯分布近似,而深层特征更适合用指数分布、伽马分布或韦伯分布来描述。此外,随着网络深度的增加,深度特征呈现出越来越长的尾部分布,但令人惊讶的是,这种增长速率远低于理论估计值。研究还观察到,许多深度特征与其他极强检测结果表现出强烈的依赖性(正相关或负相关),即使这些特征在典型范围内是独立的。文章进一步讨论了这些发现,并提出假设:大值特征的长尾分布可能对应于语义目标的最强计算机视觉检测信号,这意味着这些大值特征并非异常值,而是重要的检测信号。本研究为理解深度特征的统计行为提供了新视角,并为后续应用奠定了基础。
深度特征概率密度函数卷积神经网络Copula分析广义特征函数
基于梯度的多目标深度学习:算法、理论、应用及展望
📝 作者: Weiyu Chen, Baijiong Lin, Xiaoyuan Zhang, Xi Lin, Han Zhao, Qingfu Zhang, James T. Kwok
📄 中文摘要:
随着现代深度学习应用的不断扩展,许多场景需要平衡多个往往相互冲突的目标,例如多任务学习、公平性感知学习以及大型语言模型(LLMs)的对齐问题。这催生了多目标深度学习领域,旨在通过借鉴多目标优化(MOO)的数学原理,寻找最优权衡或Pareto最优解。然而,将基于梯度的多目标优化技术直接应用于深度神经网络面临诸多挑战,包括高计算成本、优化不稳定性以及有效融入用户偏好的困难。本文对基于梯度的多目标深度学习技术进行了全面综述,系统地将现有算法按输出类型分类为三类:(i)寻找单一平衡解的方法;(ii)生成有限多样化Pareto最优解集的方法;(iii)学习连续Pareto解集的方法。除了这一分类框架外,本文还涵盖了相关理论分析、关键应用领域、实用资源,并指出了当前面临的开放性挑战和未来研究的有前景方向。此外,作者提供了一个多目标深度学习算法的全面列表,供研究者参考和使用(链接:https://github.com/Baijiong-Lin/Awesome-Multi-Objective-Deep-Learning)。本文的研究背景清晰地展示了多目标深度学习在解决复杂现实问题中的重要性,主要方法聚焦于基于梯度的优化技术,关键发现包括不同算法类别的适用场景和局限性,结论强调了理论与实践结合的必要性以及未来在计算效率和用户偏好建模方面的改进空间。本综述为研究人员提供了系统性的视角,有助于推动多目标深度学习领域的进一步发展。
多目标深度学习梯度优化Pareto最优解多任务学习公平性感知
无图像视觉:基于单一压缩测量的端到端计算机视觉
📝 作者: Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han
📄 中文摘要:
本文提出了一种基于快照压缩成像(SCI)的创新计算机视觉框架,旨在解决低光照和低信噪比(SNR)条件下的成像挑战,并克服高分辨率传感器中大尺寸掩模的硬件限制。研究团队设计了一种仅使用8×8伪随机二进制掩模的物理可实现方案,显著降低了硬件复杂性。核心创新是CompDAE,一种基于STFormer架构的压缩去噪自编码器,能够直接从噪声压缩的原始像素测量数据中执行下游任务(如边缘检测和深度估计),而无需进行图像重建。CompDAE采用受BackSlash启发的速率约束训练策略,促进了紧凑且可压缩模型的开发。通过共享编码器与轻量级任务特定解码器的结合,该框架实现了一个统一的多任务平台。大量实验表明,CompDAE在多个数据集上取得了最先进的性能,尤其是在超低光照条件下,其表现远超传统CMOS和SCI流程,同时显著降低了计算复杂性。研究结果表明,该方法在高效率、低带宽和节能成像领域具有重要应用潜力,为计算机视觉在极端条件下的应用开辟了新路径。作者还讨论了该框架在实际硬件部署中的可行性及其对未来研究的启示,认为其可能推动压缩感知与计算机视觉的进一步融合。
快照压缩成像计算机视觉低光照成像压缩去噪自编码器多任务学习
基于风险的阈值方法用于集中式太阳能发电厂的可靠异常检测
📝 作者: Yorick Estievenart, Sukanya Patra, Souhaib Ben Taieb
📄 中文摘要:
集中式太阳能发电(CSP)厂的高效和可靠运行对于满足日益增长的可持续能源需求至关重要。然而,高温太阳能接收器面临冻结、变形和腐蚀等严重操作风险,导致昂贵的停机和维护成本。为了监控CSP厂,安装在太阳能接收器上的摄像头以1至5分钟不等的间隔记录红外图像,通过对异常分数进行阈值处理可以检测异常图像,其中阈值通过在验证集上优化F1分数等指标来选择。本研究提出了一种基于风险控制的框架,用于生成更可靠的决策阈值,并在有限样本下对任何选定的风险函数提供覆盖保证。该框架还引入了弃权机制,允许将高风险预测交由领域专家处理。其次,本文提出了一种密度预测方法,通过估计给定先前观测图像序列的情况下当前观测图像的似然值,将其作为异常分数。此外,本研究分析了该框架在多个训练场景下对两座CSP厂数月的部署结果,为行业合作伙伴优化维护操作提供了宝贵见解。最后,鉴于数据集的保密性,本文提供了一个扩展的模拟数据集,利用生成建模的最新进展创建多样化的热成像数据,模拟多个CSP厂的情况。相关代码已公开。本研究的创新性在于结合风险控制和密度预测方法显著提升了异常检测的可靠性,为CSP厂的运营和维护提供了重要支持。
集中式太阳能异常检测风险控制密度预测红外图像
MultiADS:零样本学习中多类型异常检测与分割的缺陷感知监督
📝 作者: Ylli Sadikaj, Hongkuan Zhou, Lavdim Halilaj, Stefan Schmid, Steffen Staab, Claudia Plant
📄 中文摘要:
在工业应用中,精确的光学检测对于降低废品率和相关成本至关重要。除了简单地检测产品是否异常外,了解具体的缺陷类型(如弯曲、切割或划痕)也至关重要。识别确切的缺陷类型能够为现代生产线中的异常自动化处理提供支持。然而,当前方法仅限于检测产品是否缺陷,而无法提供缺陷类型的洞察,更不用说检测和识别多种缺陷。本研究提出了一种零样本学习方法MultiADS,用于多类型异常检测与分割。MultiADS的架构包括CLIP模型和额外的线性层,用于在联合特征空间中对齐视觉和文本表示。据作者所知,这是首个在零样本学习中执行多类型异常分割任务的方法。与其他基线方法相比,MultiADS具有以下优势:一是为每种不同的缺陷类型生成特定的异常掩码;二是学习区分不同的缺陷类型;三是同时识别异常产品中存在的多种缺陷类型。此外,MultiADS在五个常用数据集(MVTec-AD、Visa、MPDD、MAD和Real-IAD)上的图像级和像素级异常检测与分割任务中,均优于现有的零样本/少样本学习的最先进方法。研究结果表明,MultiADS在工业缺陷检测领域具有显著的应用潜力,能够有效提升自动化生产线的效率和精度,为未来的研究和应用奠定了重要基础。
异常检测零样本学习缺陷分割工业光学检测多类型缺陷
基于非局部Retinex的变分模型及其深度展开双胞胎用于低光图像增强
📝 作者: Daniel Torres, Joan Duran, Julia Navarro, Catalina Sbert
📄 中文摘要:
在低光条件下捕获的图像在许多应用中存在显著局限性,因为光照不足会导致细节模糊、对比度降低以及噪声隐藏。去除光照影响并提升此类图像质量对于图像分割和目标检测等任务至关重要。本文提出了一种基于Retinex分解的变分方法,用于低光图像增强,将图像分解为光照、反射和噪声三个分量。首先对低光图像进行颜色校正预处理,并将其作为分解过程中的观测输入。此外,本文模型引入了一种新颖的非局部梯度型保真项,旨在保留结构细节。同时,提出了一种自动伽马校正模块。在变分方法的基础上,本文进一步扩展了模型,引入了其深度展开对应版本,其中近端算子被替换为可学习的网络,并提出交叉注意力机制以捕捉反射非局部先验和非局部梯度约束中的长距离依赖关系。实验结果表明,两种方法在不同数据集上与近期及最先进的技术相比具有竞争力。特别是,尽管未依赖学习策略,变分模型在视觉效果和质量指标上均优于大多数深度学习方法。这一研究为低光图像增强提供了新的理论和实践工具,具有重要的应用价值。
低光图像增强Retinex分解变分模型深度展开非局部梯度
ProtoECGNet:基于案例的可解释深度学习用于多标签心电图分类与对比学习
📝 作者: Sahil Sethi, David Chen, Thomas Statchen, Michael C. Burkhart, Nipun Bhandari, Bashar Ramadan, Brett
📄 中文摘要:
本文提出了一种名为ProtoECGNet的基于原型的深度学习模型,用于可解释的多标签心电图(ECG)分类。研究背景在于,尽管基于深度学习的心电图分类技术表现出色,但由于缺乏透明且可靠的解释,其临床应用受到限制。传统的后验方法如显著性图可能无法真实反映模型的决策过程,而基于原型的推理通过将决策基于与真实心电图片段的相似性,提供了一种更透明的替代方案。ProtoECGNet采用结构化的多分支架构,反映了临床解释流程:其结合了用于节律分类的1D CNN与全局原型、用于形态推理的2D CNN与时间局部原型,以及用于弥漫性异常的2D CNN与全局原型。每个分支通过专为多标签学习设计的原型损失进行训练,结合了聚类、分离、多样性以及一种新的对比损失,该损失鼓励无关类别原型之间的适当分离,同时允许经常共诊的诊断原型聚类。在PTB-XL数据集的全部71个诊断标签上评估ProtoECGNet,结果显示其性能与最先进的黑箱模型相当,同时提供了结构化的基于案例的解释。此外,通过临床医生对最终模型投影原型的结构化评审,确认这些原型具有代表性和清晰性。研究表明,原型学习可以有效扩展到复杂的多标签时间序列分类任务,为临床决策支持提供了透明且可信的深度学习模型的实用路径。关键发现包括ProtoECGNet在保持高性能的同时实现了可解释性,为深度学习在医学领域的应用开辟了新方向。结论指出,该模型通过结合原型推理和对比学习,成功平衡了性能与透明性,具有重要的临床应用潜力。
心电图分类深度学习可解释性原型学习对比学习
让虚空为空:通过选择性非对齐实现鲁棒的开放集半监督学习
📝 作者: You Rim Choi, Subeom Park, Seojun Heo, Eunchung Noh, Hyung-Sin Kim
📄 中文摘要:
开放集半监督学习(OSSL)利用包含分布内(ID)和未知分布外(OOD)样本的无标签数据,旨在同时提高闭集分类精度和检测新的OOD实例。现有方法要么丢弃不确定样本中的有价值信息,要么强制将每个无标签样本对齐到一个或几个合成的‘全包’表示,导致几何坍缩和对已见OOD的过度自信。为解决这些局限性,本研究提出了一种选择性非对齐方法,在对比学习的传统拉近(pull)和推远(push)操作中引入了新的‘跳过’操作。我们的框架SkipAlign选择性地跳过对低置信度无标签样本的对齐(拉近),仅保留对ID原型的温和排斥。这种方法将不确定样本转化为纯粹的排斥信号,从而形成更紧密的ID聚类和自然分散的OOD特征。大量实验表明,SkipAlign在不牺牲ID分类精度的前提下,显著优于现有最先进方法在检测未见OOD数据方面的表现。研究通过创新性地处理不确定样本,平衡了分类精度与开放集检测能力,为半监督学习领域提供了一种新的视角和方法。作者还探讨了该方法在不同数据集上的适用性和鲁棒性,验证了其在实际应用中的潜力。总之,本文提出了一种有效解决开放集半监督学习中关键挑战的框架,为未来的研究奠定了基础。
开放集半监督学习选择性非对齐对比学习分布外检测鲁棒性
Mj"olnir:一种用于全球闪电密度参数化的深度学习框架
📝 作者: Minjong Cheon
📄 中文摘要:
近年来,基于人工智能的天气预报模型(如FourCastNet、Pangu-Weather和GraphCast)展示了深度学习在模拟复杂大气动力学方面的卓越能力。在此基础上,本研究提出了Mj"olnir,一种新颖的基于深度学习的全球闪电密度参数化框架。该框架利用ERA5大气预测变量和世界闪电定位网络(WWLLN)的观测数据进行训练,时间分辨率为每日,空间分辨率为1度,旨在捕捉大规模环境条件与闪电活动之间的非线性映射关系。Mj"olnir的模型架构基于InceptionNeXt骨干网络结合SENet,并采用多任务学习策略,同时预测闪电的发生和强度。广泛的评估结果表明,Mj"olnir能够精确再现闪电活动的全球分布、季节性变化和区域特征,其年均场的全球皮尔逊相关系数达到0.96。这些结果表明,Mj"olnir不仅是一种有效的数据驱动型全球闪电参数化工具,还为下一代地球系统模型(AI-ESMs)提供了一种有前景的人工智能方案。通过将深度学习技术应用于闪电密度预测,本研究为提高天气预报和气候模拟的精度提供了新的可能性,同时也为人工智能在地球科学中的应用开辟了新的研究方向。未来,Mj"olnir框架有望进一步优化,以适应更高分辨率的数据和更复杂的环境条件,从而在灾害预警和气候变化研究中发挥更大作用。
深度学习闪电密度全球参数化人工智能地球系统模型
PROM:优先减少乘法运算而非降低位宽以实现高效卷积神经网络
📝 作者: Lukas Meiner, Jens Mehnert, Alexandru Paul Condurache
📄 中文摘要:
卷积神经网络(CNN)在资源受限设备上的计算机视觉任务中至关重要。量化技术通过压缩模型有效降低了存储需求和能耗。然而,在现代深度可分离架构中,计算成本在各组件间的分布不均,其中点卷积操作的计算成本最高。现有的量化方法在这种不平衡的成本分布下应用通用量化方案,未能充分利用潜在的效率提升。为此,本文提出了PROM,一种针对现代深度可分离卷积网络的量化方法,通过选择性地使用两种不同的位宽进行量化。具体而言,点卷积被量化为三值权重,而其余模块使用8位权重,这一过程通过简单的量化感知训练实现。此外,通过将激活值量化为8位,本方法将具有三值权重的点卷积转化为int8加法运算,这种运算在各种硬件平台上广泛支持,并有效消除了昂贵的乘法运算需求。将PROM应用于MobileNetV2后,与float16基线相比,模型能耗降低了超过一个数量级(23.9倍),存储大小减少了2.7倍,同时在ImageNet数据集上的分类性能保持相似。PROM在ImageNet上量化卷积模型的能耗与top-1准确率的Pareto前沿上取得了进展。本方法解决了深度可分离卷积网络量化至三值和8位权重的挑战,提供了一种简单的方式来降低能耗和存储需求,为资源受限设备上的高效CNN部署提供了新思路。研究结果表明,PROM在保持性能的同时显著提升了模型效率,具有重要的应用价值。
卷积神经网络量化深度可分离架构能耗优化存储压缩
高效CNN中异构金字塔感受野的专家式重参数化在公平医学图像分类中的应用
📝 作者: Xiao Wu, Xiaoqing Zhang, Zunjie Xiao, Lingxi Hu, Risa Higashita, Jiang Liu
📄 中文摘要:
本文针对高效卷积神经网络(CNN)架构设计在医学图像分类任务中的两大挑战进行了研究:一是现有CNN架构在捕捉多样化病变特征(如微小、协调、小而显著的病变)方面的局限性,尤其是在不平衡的医学图像分类中;二是这些CNN模型的预测往往存在不公平或偏见问题,在实际医学诊断中应用时存在较高风险。为解决这些问题,本文提出了一种新颖的概念——异构金字塔感受野的专家式重参数化(ERoHPRF)。该方法通过设计异构金字塔感受野集合,模拟多专家会诊模式,利用多种异构内核大小的卷积操作有效捕捉不同重要性的病变特征。同时,ERoHPRF引入了专家式结构重参数化技术,通过两阶段策略合并参数,与单一感受野相比,确保了竞争性的计算成本和推理速度。为了验证ERoHPRF的有效性和泛化能力,作者将其集成到主流高效CNN架构中。大量实验表明,与现有最先进方法相比,ERoHPRF在医学图像分类性能、公平性以及计算开销方面实现了更好的平衡。本文的代码已公开,供进一步研究和应用参考。
卷积神经网络医学图像分类公平性异构感受野重参数化
DSOcc:利用深度感知和语义辅助提升基于摄像头的3D语义占用预测
📝 作者: Naiyu Fang, Zheyuan Zhou, Kang Wang, Ruibo Li, Lemiao Qiu, Shuyou Zhang, Zhe Wang, Guosheng Lin
📄 中文摘要:
基于摄像头的3D语义占用预测为自动驾驶中的周围场景感知提供了一种高效且成本效益高的解决方案。然而,现有方法依赖于显式的占用状态推断,导致大量错误的特征分配,同时样本不足限制了占用类别推断的学习能力。为了解决这些挑战,本文提出了一种利用深度感知和语义辅助提升基于摄像头的3D语义占用预测的方法(DSOcc)。该方法联合进行占用状态和占用类别的推断,其中通过非学习方法计算软占用置信度,并将其与图像特征相乘,使体素具备深度感知能力,从而实现自适应的隐式占用状态推断。与其增强特征学习,不如直接利用训练良好的图像语义分割模型,并融合多帧图像及其占用概率来辅助占用类别推断,从而提高鲁棒性。实验结果表明,DSOcc在SemanticKITTI数据集上的表现达到了基于摄像头方法中的最先进水平。本研究通过结合深度信息和语义分割技术,显著提升了3D语义占用预测的精度和可靠性,为自动驾驶场景感知提供了重要的技术支持。作者还讨论了该方法在实际应用中的潜在优势,例如较低的计算成本和对复杂环境的适应性。总之,DSOcc为基于摄像头的3D感知任务提供了一种创新且高效的解决方案,具有重要的研究价值和应用前景。
3D语义占用预测深度感知语义分割自动驾驶计算机视觉
精准农业中农业图像分析的领域适应技术综述
📝 作者: Xing Hu, Siyuan Chen, Xuming Huang, Qianqian Duan, Huiliang Shang, Dawei Zhang
📄 中文摘要:
随着计算机视觉在农业领域的广泛应用,图像分析在作物健康监测和害虫检测等任务中变得至关重要。然而,由于环境变化、作物类型差异以及数据采集方法的多样性导致的显著领域偏移,模型在不同地区、季节和复杂农业场景中的泛化能力受到限制。本文探讨了领域适应(Domain Adaptation, DA)技术如何通过提升跨领域可迁移性来应对这些挑战。鉴于标注数据的有限性、模型适应性的不足以及动态的田间条件,DA成为一种有前景的解决方案。本文系统地总结了农业图像领域适应的最新进展,重点关注其在作物健康监测、害虫检测和水果识别等应用中的表现,DA方法在多样化领域中显著提升了性能。文中将DA方法分为浅层和深度学习方法,包括监督、半监督和无监督策略,并特别关注在复杂场景中表现出强大潜力的对抗学习技术。此外,本文还回顾了主要的公共农业图像数据集,评估了它们在DA研究中的优势和局限性。总体而言,本文为农业视觉任务中领域适应的未来研究与发展提供了全面的框架和关键见解,旨在指导研究人员解决农业图像分析中的领域偏移问题,推动精准农业技术的进步。
领域适应农业图像分析精准农业计算机视觉对抗学习
15,500秒:使用EfficientNet和轻量级微调进行精益无人机分类
📝 作者: Andrew P. Berg, Qian Zhang, Mia Y. Wang
📄 中文摘要:
随着消费级和军用无人机市场的不断扩大,无人机(UAV)带来的安全问题日益严峻。本研究针对深度无人机音频分类中的关键数据稀缺挑战,提出了一种创新解决方案。作者在前人工作的基础上,扩展了多种新颖方法,包括参数高效的微调技术、数据增强策略以及预训练网络的应用。通过这些方法,本研究在EfficientNet-B0模型上实现了高达95%的验证准确率。研究背景聚焦于无人机音频分类的实际需求,特别是在数据有限的情况下如何提高模型性能。主要方法包括利用预训练的EfficientNet模型进行轻量级微调,以减少对大规模标注数据的需求,同时通过数据增强技术扩充训练数据集,增强模型的泛化能力。关键发现表明,EfficientNet-B0在无人机音频分类任务中表现出色,不仅在验证集上取得了高准确率,还展示了参数效率和计算资源节约的优势。研究结论指出,这种方法为解决数据稀缺问题提供了一种可行的路径,并为无人机安全监测领域的进一步研究奠定了基础。此外,本研究还探讨了轻量级模型在实际部署中的潜力,特别是在资源受限的环境下,具有重要的应用价值。
无人机分类音频分类深度学习轻量级微调数据增强
AURA:一种用于工业烟雾排放稳健实时检测的混合时空-色度框架
📝 作者: Mikhail Bychkov, Matey Yordanov, Andrei Kuchma
📄 中文摘要:
本文提出了一种名为AURA的新型混合时空-色度框架,专门用于工业烟雾排放的稳健实时检测与分类。当前的环境监测系统常常面临特异性不足的问题,难以区分不同类型的烟雾,并且在环境变化下表现不佳。AURA框架通过结合工业烟雾的动态运动模式和独特的颜色特征,显著提高了检测精度并减少了误报率。该框架利用先进的图像处理技术和时空分析方法,能够在复杂环境下实现自动化、精准的烟雾监测。研究背景聚焦于工业排放对环境和公共健康的威胁,强调了实时监测的重要性。AURA的主要方法包括提取烟雾的时空特征和色度信息,并通过机器学习模型对烟雾类型进行分类。关键发现表明,AURA在多种环境条件下均表现出较高的检测准确性和鲁棒性,尤其是在区分不同工业烟雾类型方面优于现有系统。此外,该框架的实时处理能力使其适用于工业现场的即时监控。研究结论指出,AURA的实施有望显著提升环境合规性、操作安全性和公共健康水平,为工业排放管理提供了有效的技术支持。未来,该框架可进一步优化以适应更广泛的应用场景,并与其他环境监测技术集成,形成更全面的解决方案。
工业烟雾检测实时监测时空-色度框架环境合规性图像处理
空间-频率感知的RAW图像目标检测
📝 作者: Zhuohua Ye, Liming Zhang, Hongru Han
📄 中文摘要:
本文提出了一种基于RAW图像的目标检测方法,旨在利用未处理的传感器数据(RAW数据)来提升检测性能。RAW数据因其宽动态范围和线性响应特性,往往会抑制目标的重要细节,而现有的增强方法大多在空间域内操作,难以有效恢复RAW图像中被抑制的细节。为解决这一问题,作者转向频率域,利用频率分离目标轮廓和纹理等特征,提出了一种新颖的空间-频率感知RAW图像目标检测增强器(SFAE)框架。该框架通过协同空间和频率表示,实现了三方面的创新:首先,通过频率带的“空间化”,将抽象频谱逆变换为直观的空间图,保留了物理直觉;其次,开发了跨域融合注意力模块,促进空间特征与频率图之间的深度多模态交互;最后,通过预测并应用不同伽马参数,实现对两个域的自适应非线性调整。实验结果表明,该方法在RAW图像目标检测中显著提升了细节恢复和检测精度,尤其是在复杂光照和动态范围场景下表现优异。作者认为,该框架不仅为RAW图像处理提供了新思路,也为跨域特征融合在计算机视觉中的应用开辟了新方向。研究结论强调了频率域分析在处理RAW数据中的潜力,并为未来在其他视觉任务中的应用奠定了基础。
RAW图像目标检测空间-频率感知跨域融合计算机视觉
BlurryScope:利用深度学习在模糊图像上实现紧凑、成本效益高的HER2评分扫描显微镜
📝 作者: Michael John Fanous, Christopher Michael Seybold, Hanlong Chen, Nir Pillar, Aydogan Ozcan
📄 中文摘要:
本研究开发了一种名为'BlurryScope'的快速扫描光学显微镜,该设备结合连续图像采集和深度学习技术,为组织切片的自动化检查和分析提供了一种成本效益高且紧凑的解决方案。BlurryScope的扫描速度与商用数字病理扫描仪相当,但价格显著降低,体积和重量也更小。研究团队利用BlurryScope实现了对免疫组化(IHC)染色的乳腺组织切片中人类表皮生长因子受体2(HER2)评分的自动化分类,特别是在运动模糊图像上的分类结果与高端数字扫描显微镜所得结果一致。在包含284个独特患者核心的测试集中,BlurryScope在4类HER2评分(0, 1+, 2+, 3+)和2类HER2评分(0/1+, 2+/3+)的测试准确率分别达到了79.3%和89.7%。此外,BlurryScope实现了从图像扫描到拼接、裁剪以及HER2评分分类的整个工作流程的自动化。这项技术为临床病理学诊断提供了一种高效、低成本的工具,尤其在资源有限的环境中具有重要应用潜力。研究结果表明,深度学习结合模糊图像处理技术可以在不牺牲精度的前提下显著降低设备成本和复杂性,为医学成像领域带来了新的可能性。未来,该技术可能进一步扩展到其他生物标志物的自动化评分和诊断应用中。
BlurryScope深度学习HER2评分扫描显微镜医学成像
深度离散编码器:具有离散潜在层的丰富数据可识别深度生成模型
📝 作者: Seunghyun Lee, Yuqi Gu
📄 中文摘要:
在生成式人工智能时代,带有潜在表示的深度生成模型(DGMs)因其出色的经验性能而广受欢迎。然而,这些模型的统计特性仍未被充分探索。DGMs通常存在过参数化、不可识别以及不可解释的黑箱问题,这在高风险应用中引发了严重关切。为此,本研究提出了一种针对丰富数据类型的可解释深度生成模型——深度离散编码器(DDEs),其具有多个离散潜在层。DDEs是一种具有多层二元潜在层的有向图模型。在理论上,本文提出了DDEs的透明可识别性条件,表明随着潜在层深度的增加,其规模逐渐减小。可识别性保证了参数估计的一致性,并启发了对深度架构的可解释设计。在计算方面,本文提出了一种可扩展的估计流程,包括逐层的非线性谱初始化以及后续的惩罚随机逼近EM算法。这一流程能够高效估计具有指数级潜在成分的模型。针对高维数据和深度架构的大量仿真研究验证了理论结果,并展示了算法的优异性能。此外,本文将DDEs应用于三个不同类型数据的真实数据集,分别用于分层主题建模、图像表示学习以及教育测试中的响应时间建模,展示了模型在多种场景下的适用性和有效性。通过理论与实证的结合,DDEs为深度生成模型的可解释性和统计可靠性提供了新的视角和解决方案。
深度生成模型离散潜在层可识别性可解释性主题建模
CostFilter-AD:通过匹配成本过滤增强异常检测
📝 作者: Zhe Zhang, Mingxiu Cai, Hanxiao Wang, Gaochang Wu, Tianyou Chai, Xiatian Zhu
📄 中文摘要:
无监督异常检测(UAD)旨在根据正常样本定位输入图像中的异常区域。现有方法主要通过重建正常样本(基于重建的方法)或学习图像特征嵌入空间(基于嵌入的方法),依赖于图像级别或特征级别的匹配来推导出异常分数。然而,这种匹配过程往往不够准确且被忽视,导致检测效果不佳。为解决这一问题,本文引入了经典匹配任务(如深度和流估计)中的成本过滤概念,提出了名为CostFilter-AD的新方法。具体而言,作者首先构建了输入样本与正常样本之间的匹配成本体积,该体积包含两个空间维度和一个编码潜在匹配的匹配维度。为了优化这一成本体积,作者提出了一种成本体积过滤网络,以输入观测作为注意力查询,跨多个特征层进行引导,有效抑制匹配噪声,同时保留边缘结构并捕捉细微异常。CostFilter-AD被设计为一种通用的后处理插件,可与基于重建或基于嵌入的方法集成。在MVTec-AD和VisA基准数据集上的广泛实验验证了CostFilter-AD在单类和多类UAD任务中的通用优势。作者还计划在GitHub上发布代码和模型。本研究通过引入成本过滤机制显著提升了异常检测的精度,为无监督异常检测领域提供了新的视角和工具。其关键发现表明,成本体积过滤网络能够在多种方法框架下有效提升异常检测性能,尤其是在复杂场景中捕捉细微异常的能力。结论指出,CostFilter-AD作为一种通用模块,具有广泛的应用潜力,未来可进一步探索其在其他视觉任务中的适用性。
无监督异常检测成本过滤匹配成本体积计算机视觉特征嵌入
利用动态易感对比MRI区分远端缺血性卒中与癫痫诱发的卒中模拟
📝 作者: Marijn Borghouts, Richard McKinley, Josien Pluim, Manuel K\"ostner, Roland Wiest, Ruisheng Su
📄 中文摘要:
本研究旨在解决急性缺血性卒中(AIS)与卒中模拟(SMs)之间的鉴别诊断难题,特别是在涉及中、小血管闭塞的情况下。传统的基于计算机断层扫描(CT)的诊断协议在急诊环境中广泛应用,但其对远端闭塞的检测灵敏度有限。本研究探索了磁共振灌注(MRP)成像作为区分远端AIS与癫痫发作(一种常见的卒中模拟)的工具的潜力。研究使用了一个包含162名患者的回顾性数据集(其中129名为AIS患者,33名为癫痫患者),从动态易感对比(DSC)图像中提取了区域性的灌注图描述符(PMDs)。通过统计分析,发现主要位于颞叶和枕叶的几个脑区在某些PMDs上显示出显著的组间差异。半球不对称性分析进一步强调了这些区域的区分能力。基于PMDs训练的逻辑回归模型在接收者操作特征曲线(AUROC)下的面积达到0.90,精确度-召回曲线(AUPRC)下的面积为0.74,特异性为92%,灵敏度为73%,表明该模型在区分远端AIS与癫痫发作方面具有较强的性能。研究结果支持进一步探索基于MRP的PMDs作为可解释特征,用于区分真实卒中与各种模拟情况。本研究的代码已公开,可在GitHub上获取。
缺血性卒中癫痫磁共振灌注动态易感对比诊断模型
合成孔径雷达图像分类的机器学习方法
📝 作者: Romina Gaburro, Patrick Healy, Shraddha Naidu, Clifford Nolan
📄 中文摘要:
本文研究了利用卷积神经网络(CNN)在合成孔径雷达(SAR)中识别和分类地面物体的问题。作者采用单散射近似方法,通过模拟SAR数据和从这些数据中重建的图像,对物体的形状进行分类,并比较了两种方法的成功率。此外,研究还利用来自Sentinel-1卫星的真实SAR图像对冰类型进行了分类。在两项实验中,分类准确率均达到了令人满意的水平(≥75%)。研究结果表明,CNN在利用SAR数据进行几何形状和环境分类任务方面具有显著的有效性。作者进一步探讨了SAR数据采集时不同天线高度对物体分类能力的影响,发现天线高度对分类结果有一定程度的影响,但CNN模型仍能保持较高的鲁棒性。本文的研究背景在于SAR技术在遥感领域的广泛应用,尤其是在环境监测和目标识别中的重要性,而传统的分类方法往往受限于复杂环境下的数据噪声和特征提取困难。通过引入机器学习方法,特别是CNN,本研究为SAR图像处理提供了一种高效的解决方案。关键发现包括:CNN能够有效处理SAR数据的复杂特性,并在模拟和真实数据上均表现出较高的分类精度;同时,不同数据采集条件下的模型表现差异为后续优化提供了方向。结论指出,CNN在SAR图像分类中的应用具有广阔前景,但仍需进一步研究以适应更多复杂场景和提高模型的泛化能力。
合成孔径雷达卷积神经网络图像分类遥感技术冰类型识别
新型NIRMAL优化器与Adam及带动量的SGD的比较分析
📝 作者: Nirmal Gaud, Surej Mouli, Preeti Katiyar, Vaduguru Venkata Ramya
📄 中文摘要:
本研究提出了一种新型优化算法NIRMAL(Novel Integrated Robust Multi-Adaptation Learning),该算法结合了多种策略,包括梯度下降、动量、随机扰动、自适应学习率和非线性变换,其灵感来源于国际象棋棋子的移动方式。研究通过在四个基准图像分类数据集(MNIST、FashionMNIST、CIFAR-10和CIFAR-100)上对NIRMAL与两种广泛使用且成功的优化器Adam和带动量的SGD进行详细评估,采用了定制的卷积神经网络(CNN)架构进行实验。实验结果表明,NIRMAL在性能上具有竞争力,特别是在更具挑战性的CIFAR-100数据集上,其测试准确率达到45.32%,加权F1分数为0.4328,优于Adam(准确率41.79%,F1分数0.3964),并接近带动量的SGD(准确率46.97%,F1分数0.4531)。此外,NIRMAL在复杂数据集上展现出稳健的收敛性和强大的泛化能力,通过损失和准确率曲线的稳定训练结果得以验证。这些发现凸显了NIRMAL作为一种多功能且有效的优化器在各种深度学习任务中的显著潜力。研究结果为优化算法的设计提供了新的思路,可能对深度学习模型的训练和性能提升产生积极影响。
NIRMAL优化器深度学习图像分类自适应学习率卷积神经网络
无矩阵环境下二到无穷范数和一到二范数的估计方法
📝 作者: Askar Tsyganov, Evgeny Frolov, Sergey Samsonov, Maxim Rakhuba
📄 中文摘要:
本文提出了一种新的随机化算法,用于在无矩阵环境下仅通过矩阵-向量乘法估计二到无穷范数和一到二范数。研究方法基于对Hutchinson对角估计器及其改进版本Hutch++的适当修改,作者为这两种修改方法提供了预言机复杂性界限。研究背景在于解决传统范数估计方法在高维矩阵计算中的效率问题,尤其是在无法直接访问矩阵全貌的情况下。作者详细阐述了算法的理论基础,并通过数值实验验证了其有效性。此外,本文还展示了这些算法在深度神经网络训练中的实际应用,特别是在图像分类任务中基于雅可比矩阵的正则化过程中,显著提升了模型的稳定性。同时,研究进一步探讨了算法在推荐系统领域对抗性攻击缓解中的应用潜力,表明其可以有效降低攻击对系统性能的影响。关键发现包括:相比传统方法,新算法在计算效率和准确性上均有显著提升,尤其在大规模矩阵问题中表现优异。结论指出,该方法不仅在理论上具有创新性,而且在多个实际应用场景中展现了广泛的适用性,为未来的研究提供了新的思路和工具。
范数估计随机化算法矩阵-向量乘法深度神经网络推荐系统
双侧耳朵对称性如何影响深度耳朵特征?
📝 作者: Kagan Ozturk, Deeksha Arun, Kevin W. Bowyer, Patrick Flynn
📄 中文摘要:
耳朵识别作为一种可靠的生物识别技术,因其独特的人体耳朵特征而受到广泛关注。随着大规模数据集的日益普及,卷积神经网络(CNN)已被广泛用于直接从原始耳朵图像中学习特征,性能优于传统的手工特征提取方法。然而,关于双侧耳朵对称性对CNN学习特征的影响,近期研究中鲜有探讨。本文研究了双侧耳朵对称性对基于CNN的耳朵识别效果的影响。为此,我们首先开发了一个耳朵侧别分类器,用于自动将耳朵图像分类为左侧或右侧。随后,我们探讨了在训练和测试阶段引入侧别信息的影响。研究在五个数据集上进行了跨数据集评估,结果表明,在训练和测试时分别处理左右耳朵可以显著提升识别性能。此外,我们对对齐策略、输入尺寸以及各种超参数设置进行了消融研究,为在大规模数据集上训练基于CNN的耳朵识别系统提供了实用见解,以实现更高的验证率。本研究揭示了双侧耳朵对称性在深度学习模型中的重要作用,为耳朵识别技术的进一步优化提供了理论和实践依据。研究结论表明,考虑耳朵侧别信息能够有效提升模型的鲁棒性和准确性,这对未来的生物识别系统设计具有重要意义。
耳朵识别双侧对称性卷积神经网络生物识别深度学习
编码超光谱采集的非监督分类:地面真实数据的局限性
📝 作者: Trung-tin Dinh (IRAP, LAAS-PHOTO, UT3, LAAS), Herv\'e Carfantan (IRAP), Antoine Monmayrant (LAA
📄 中文摘要:
本文提出了一种非监督分类方法,利用DD-CASSI超光谱成像仪的有限编码采集数据进行分类。基于类内光谱变异性的简单模型,该方法能够在数据压缩十倍的情况下识别类别并估计参考光谱。研究特别指出了当前用于评估此类方法的地面真实数据(ground truth)的局限性,包括类别定义不清、类内变异性高以及分类错误等问题。以Pavia University场景为例,作者展示了通过简单假设可以检测到光谱上更为一致的区域,从而揭示了重新思考分类方法评估的必要性,尤其是在非监督场景下。研究背景聚焦于超光谱图像处理领域,针对数据压缩和非监督学习的需求,提出了一种创新的解决方案。方法上,通过构建光谱变异性模型,结合编码采集技术,实现了对复杂数据的有效分类。关键发现表明,传统的地面真实数据在评估非监督分类方法时存在显著缺陷,可能导致评估结果的偏差。作者强调,未来的研究应关注如何定义和构建更可靠的评估标准,以提升非监督分类方法的实用性和准确性。结论指出,该方法在数据压缩环境下展现了潜力,但其效果高度依赖于对类别定义和评估标准的改进。这项工作为超光谱图像分类领域提供了新的视角,并呼吁对评估框架进行系统性反思。
非监督分类超光谱成像编码采集地面真实数据光谱变异性
评估图像超分辨率对白细胞分类精度的影响
📝 作者: Tatwadarshi P. Nagarhalli, Shruti S. Pawar, Soham A. Dahanukar, Uday Aswalekar, Ashwini M. Save, San
📄 中文摘要:
在医学诊断中,从显微图像中准确分类白细胞对于识别多种疾病和病症至关重要。近年来,深度学习技术被广泛应用于图像的快速自动分类。然而,显微图像的分辨率通常较低,这可能导致分类精度的下降。为解决这一问题,研究者采用了图像超分辨率等图像增强技术来提高图像分辨率。本研究通过大规模图像维度提升,探讨了图像增强方法对分类性能的影响。具体而言,研究分析了通过尖端超分辨率技术提高图像分辨率后,深度学习模型是否能够捕捉更细微的形态变化,从而理解更复杂的视觉信息。增强后的图像被整合到训练过程中,使模型能够同时从标准数据和增强数据中学习,以探究图像分辨率对模型性能的影响并提升分类精度。研究采用了一种知名的图像分类模型进行广泛测试,并全面评估了该方法的有效性。通过理解普通图像与增强图像之间的权衡,本研究旨在开发更高效的图像识别算法,专门针对白细胞数据集进行优化。研究结果表明,图像超分辨率技术在一定程度上提高了分类精度,为医学影像分析提供了新的可能性,同时也揭示了图像增强技术在实际应用中的潜在局限性。最终,本研究为改进医学诊断中的图像分类算法提供了重要参考,并为未来在图像分辨率与模型性能之间寻找平衡点的研究奠定了基础。
图像超分辨率白细胞分类深度学习医学影像分析图像增强
深度学习失效时:循环模型在基于笔画的手写分析用于阿尔茨海默病检测中的局限性
📝 作者: Emanuele Nardone, Tiziana D'Alessandro, Francesco Fontanella, Claudio De Stefano
📄 中文摘要:
阿尔茨海默病的检测通常依赖昂贵的神经影像技术或侵入性操作,限制了其可及性。本研究探讨了是否可以通过手写分析实现非侵入性的阿尔茨海默病检测。研究使用了一个包含34种不同手写任务的数据集,这些数据来自健康对照组和阿尔茨海默病患者。我们评估并比较了三种循环神经网络架构(LSTM、GRU、RNN)与传统机器学习模型的性能。本研究的一个关键特点是,循环模型处理的是从离散笔画中预提取的特征,而非原始时间信号。这违背了循环网络设计用来捕捉的连续时间流假设。结果显示,循环模型表现出较差的特异性和较高的方差。相比之下,传统的集成方法在所有深度架构中表现更为优异,实现了更高的准确率和平衡的指标。这表明,循环架构在处理从模糊分割的笔画中提取的特征向量时失效,无法适应其架构假设与离散、基于特征的笔画级手写数据之间的根本性脱节。尽管性能有限,本研究揭示了数据表示和模型兼容性方面的几个关键问题,为未来的研究指明了有价值的方向。研究强调了深度学习模型在特定数据结构下的局限性,提示在应用复杂模型时需谨慎考虑数据特性和模型假设的一致性。
深度学习循环神经网络阿尔茨海默病检测手写分析数据表示
嵌入式硬件平台上的环境声音分类
📝 作者: Gabriel Bibbo, Arshdeep Singh, Mark D. Plumbley
📄 中文摘要:
卷积神经网络(CNN)在各种音频分类任务中展现了最先进的性能,然而在资源受限的嵌入式设备上实现实时部署仍是一个挑战。本研究分析了针对音频模式识别设计的大型预训练音频神经网络在嵌入式硬件(如Raspberry Pi)上部署时的性能变化。研究通过实验探讨了CPU温度、麦克风质量和音频信号音量对性能的影响。实验结果表明,持续的CPU使用会导致温度升高,从而触发Raspberry Pi的自动降速机制,进而影响推理延迟。麦克风质量(特别是像Google AIY Voice Kit这样的经济型设备)以及音频信号音量都会对系统性能产生显著影响。在研究过程中,作者遇到了与库兼容性以及Raspberry Pi独特处理器架构相关的重大问题,使得部署过程相较于传统计算机(PC)更为复杂。尽管面临诸多挑战,本研究的观察结果为未来研究者开发更紧凑的机器学习模型、设计散热硬件以及在边缘设备上实时应用AI模型时选择合适的麦克风奠定了基础。本文的研究不仅揭示了嵌入式平台上部署深度学习模型的实际问题,还为优化此类系统的性能提供了宝贵的见解。
嵌入式系统环境声音分类卷积神经网络硬件性能边缘设备
评估检测阈值:假阳性和假阴性对超分辨率超声定位显微镜的影响
📝 作者: Sepideh K. Gharamaleki, Brandon Helfield, Hassan Rivaz
📄 中文摘要:
超分辨率超声成像通过超声定位显微镜(ULM)技术能够提供微血管结构的高分辨率视图。然而,ULM图像质量高度依赖于微泡(MB)的精确检测。尽管定位算法在其中扮演关键角色,但对于微泡检测任务中设置检测阈值等实际问题的关注仍然有限。本研究通过对模拟数据系统性地引入受控检测误差,探讨了假阳性(FP)和假阴性(FN)对ULM图像质量的影响。研究结果表明,假阳性和假阴性率对峰值信噪比(PSNR)的影响相似,但假阳性率从0%增加到20%时,结构相似性指数(SSIM)下降了7%,而相同假阴性率导致的下降幅度更大,约为45%。此外,研究发现密集微泡区域对检测误差的鲁棒性较强,而稀疏区域则表现出较高的敏感性。这表明需要开发更强大的微泡检测框架,以提升超分辨率成像的质量和可靠性。本研究为优化ULM检测算法提供了重要参考,强调了在不同微泡密度区域中平衡假阳性和假阴性误差的重要性,为未来的技术改进奠定了基础。
超分辨率超声微泡检测假阳性假阴性图像质量
解构身份,协同情感:相关性感知的情感对话肖像生成
📝 作者: Weipeng Tan, Chuming Lin, Chengming Xu, FeiFan Xu, Xiaobin Hu, Xiaozhong Ji, Junwei Zhu, Chengjie Wa
📄 中文摘要:
[基于标题推测] 本论文可能聚焦于计算机视觉与人工智能领域,研究如何通过深度学习技术生成具有情感表达的对话肖像。研究背景可能涉及人机交互、虚拟现实或数字娱乐中对真实感人脸表情生成的需求。论文可能提出了一种创新方法,通过解构身份特征和情感特征,结合相关性感知机制,实现更自然、更具情感一致性的肖像生成。主要方法可能包括深度神经网络、特征分离技术以及情感与身份特征的协同建模。关键发现可能是该方法在生成质量、情感准确性和计算效率上的显著提升。结论可能强调该技术在虚拟助手、游戏角色设计及影视制作中的潜在应用价值,并指出未来在跨文化情感表达或实时生成方面的研究方向。
情感对话肖像身份解构相关性感知计算机视觉深度学习
Iola Walker:一种用于音乐创作的移动脚步检测系统
📝 作者: William B James
📄 中文摘要:
本文介绍了一项音乐技术研究项目的一部分,旨在通过硬件和软件增强音乐创作的物质性体验。研究背景源于对音乐行业中现场表演被数字广告行业侵占的担忧,目标是通过创新音乐形式提升听众偏好,从而帮助音乐家重新掌握现场音乐表演的主导权。本项目被命名为“Iola Walker”,灵感来源于音乐中的多节奏概念“hemiola”。研究开发了一款安卓应用程序,通过脚部安装的加速度计实时检测用户的行走步伐,并利用循环神经网络(RNN)处理信号。应用将每一步的脚步转化为MIDI事件,并根据作曲者预设的节奏,选择与用户行走速度最接近的音乐段落进行播放。
本文详细记录了训练模型以实时检测行走脚步的过程。模型基于Mbient Labs脚部IMU设备采集的200Hz加速度数据进行训练,脚步的真实标注通过在脚步落地时按下安卓设备的音量增加键完成。作者通过在社区内行走并手动标注脚步数据来收集训练数据集。在实时脚步检测的多种方法中,长短期记忆网络(LSTM)取得了最佳效果。相关代码和数据已公开在GitHub上。本研究是迈向音乐领域公平人类繁荣的初步尝试,为未来的音乐技术创新奠定了基础。尽管目前仅为初步迭代,但其结合传感器技术和音乐创作的思路展示了潜在的应用前景。
音乐技术脚步检测循环神经网络人机交互移动应用
通过正则化非线性反演实现无相位极点图像和光滑线圈灵敏度图
📝 作者: Moritz Blumenthal, Martin Uecker
📄 中文摘要:
本研究旨在解决磁共振成像(MRI)中由于自动校准灵敏度估计问题固有的模糊性而导致的相位奇异性(相位极点)问题。研究背景聚焦于非线性反演(NLINV)重建方法中相位极点的检测与校正,以提高图像重建和线圈灵敏度图的质量。研究方法包括在单个线圈灵敏度图中通过计算每个像素的旋度来检测相位极点,并通过计算每个线圈旋度的加权平均值进一步确认相位极点位置。随后,将相位极点检测与校正集成到NLINV算法的迭代正则化高斯-牛顿方法中,从而避免重建图像中出现相位奇异性。本研究评估了该方法在加速笛卡尔MPRAGE脑部数据重建以及交互式径向实时心脏MRI中的应用效果。研究发现,该方法在两种应用中均能可靠地去除相位极点,即使在非常小的自动校准(AC)区域(7×7)内,NLINV结合相位极点校正也能高效且可靠地估计无奇异性的线圈灵敏度分布。结论表明,NLINV是一种高效且可靠的工具,适用于具有挑战性的MRI应用中的图像重建和线圈灵敏度估计,为解决相位奇异性问题提供了重要技术支持,并可能提升复杂MRI场景下的成像质量。
相位极点非线性反演磁共振成像线圈灵敏度图像重建