工作总结（组会） - 王小明的杂物堆

2371 字

12 分钟

工作总结（组会）

2025-11-12

学习

组会

方向#

语音/呼吸音与生理信号的深度跨模态融合诊断

创新点借鉴：

Speech & EGG Fusion：融合两种声学相关信号（说话声和喉电图）。

抑郁症 LLM 框架：融合生理信号（多模态生理信号）与 LLMs。

MFA-NRM：融合图像和文本等跨模态特征。

研究方向：

语音-呼吸音-可穿戴生理数据融合模型：收集说话声音特征（如音调变化、颤抖、气短导致的停顿）、异常呼吸音（如哮鸣音、啰音）和可穿戴设备采集的生理数据（如血氧、心率、呼吸频率）。

设计一个跨模态注意力机制或统一潜在空间模型（如 VAE + Attention），将这些异构数据深度融合，用于早期、远程诊断慢性阻塞性肺病（COPD）、哮喘、或甚至监测肺部感染后的恢复情况。

情况：虽然多模态融合比较热门，但是这种多模态的公开数据集不仅数量少，而且获取要与通讯作者联系后才有可能获取，不确定性过大，该方案基本不可行。

利用 Mamba/Transformer 对呼吸序列进行长程时序建模

创新点借鉴：

AFN-HearNet、LLM 相关论文：使用 Transformer 捕获长程依赖。

MUSF-GEM：引入 Mamba 进行长序列建模。

研究方向：

呼吸事件的长序列分析：肺部疾病的症状是时序性和间歇性的（例如夜间哮喘发作、咳嗽变异）。

利用 Mamba (State Space Model) 或 Transformer 结构来分析数小时甚至数天的连续呼吸音或连续语音记录。这能帮助模型捕获细微的、慢性的时序变化，识别疾病发作前的早期预警模式，而不是仅基于单次短时采样。

情况：存在利用这两个模型处理肺部相关疾病的论文，但是基本上是对CT扫描图片的处理，呼吸声作为长程时序（相对于咳嗽声），需要利用其出色的全局注意力机制，有效捕捉长距离依赖，而且Mamba在计算复杂问题时性能有更高的优势。

基于语音的高保真重建与特征生成

创新点借鉴：

抑郁症 LLM 框架：利用 LLMs 进行高保真重建和高阶特征生成。

DPCFN：提取底层本质特征（潜藏的共享变量）。

研究方向：

降噪与病理语音特征的恢复：采集到的患者语音或呼吸音通常包含环境噪声和采集设备噪声，或者因患者呼吸困难而导致语音中断、缺失。

利用类似 LLMs/VAE 的生成模型，对嘈杂或不完整的语音信号进行高保真去噪和重建，恢复其原始病理声学特征。同时，从这些重建的信号中提取更具鲁棒性的“疾病本质”高阶特征如声带颤动模式、气流受限程度）。

情况：在采集的过程中，医院嘈杂环境以及采集时患者呼吸或咳嗽时衣物摩擦等噪音，对处理声音的模型带来一定影响，如果实现的话，可以提高模型的鲁棒性。

类别选择性细粒度声学特征识别

创新点借鉴：

CFD-FIAF：强调高频信息和细粒度特征，解决相似类别难以区分。

CSFAFormer：类别选择性特征聚合。

研究方向：

异常呼吸音的细微鉴别与定位：不同的肺部疾病有相似的声学表现（例如，哮鸣音和干啰音有时难以区分，它们在频率上可能只存在细微差别）。

开发专注于高频、细粒度声学特征的深度学习模块，对相似的异常肺音进行类别选择性增强和精确区分（例如，区分由大气道阻塞引起的哮鸣音，和由小气道病变引起的）。同时，利用边界增强技术（如 Laplacian-based Feature）来精确识别声音在时频图上的边界和形状。

情况：对利用小波转换等方法得到的时频图进行进一步的解析，提升其对局部特征的提取能力，可与Mamba的序列任务结合，也算一种多模态？

语音分析的通道/设备自适应性

创新点借鉴：

FGNet：解决不同设备采集数据的通道数可变问题。

研究方向：

跨麦克风/设备的声音分析鲁棒性：肺部疾病的语音采集可能来自智能手机、专业麦克风、智能音箱或可穿戴传感器。这些设备的声音采样率、麦克风类型和信噪比差异巨大（相当于“可变的通道/输入质量”）。

设计一个设备自适应的语音特征提取框架，能够将来自不同采集设备的语音特征映射到统一、鲁棒的特征空间，确保远程诊断系统的泛化能力和实用性。

情况：可用此方法对不同数据集的音频进行处理，提高可用数据量，提高模型的鲁棒性。

期刊#

既然是目标的话，那就定的高一些（主要是2区及之后的论文看着也不是很舒服

《Information Fusion》

《Artificial Intelligence Review》

复现论文#

Paulraj, M., 和M. Brindha. 《A Novel Voice Pathology Detection Technique through Deep Neural Networks Utilizing Speech and Electroglottographic Signals一种利用语音和电声门图信号通过深度神经网络进行的新型嗓音病理检测技术》. Biomedical Signal Processing and Control 112 (2026年2月): 108545. https://doi.org/10.1016/j.bspc.2025.108545.

论文系统流程

改论文模型简单，我也很快找到了他所使用的数据集，本以为复现会很顺利。

出现的问题：

数据集格式不对。
小波变换处理结果与论文不一致。
源代码为 MATLAB 的。

这种音频数据一般给的都是 wav 文件，结果我去官网下载的是 egg 和 nsp 这俩未知读取方式的文件，我通过询问 ai 等方式，把这些文件以二进制方式读取，采样率为标识的 50 kHz。但是我还是不确定，这样是否会对数据产生影响，毕竟无论是官网介绍，还是论文介绍以及代码，里面使用的都是 wav 格式的文件，而我没有获取成功。

论文：论文生成图片

我实现的：复现图片

只能芝士有点像，但不多。因为第三个问题，我不熟悉 MATLAB 的代码，所以我对这个实现问题没有什么解决的思路。而且我那时候感觉是论文读傻了，怎么会把生成的图片先下载到文件夹内，再对图片进行处理。这样不仅耗时耗力（我弄了好久，因为本身对图片就不是很满意），而且失真还很严重，导致最后效果坏得不行。

深度学习课程#

之后我就去完成深度学习课程作业了，可恶的 YMC，什么把日期提前，导致我做的匆匆忙忙。（其实是拖延症导致的）

具体架构：系统架构

怎么说吧，练手是挺好的，为了不被他训，我还是看了一点点的内容。但是，里面注意力什么的还是有点困难，所以我在给他演示的 ppt 中已经简化了模型，希望这个星期讲的时候，不会被他刁难。

数据集寻找并处理#

在方向中，我原本是想实现多模态的模型，但是这样的数据集实在是有点难找，我觉得 OK 的也只有之前那篇论文的，结果里面的格式还有这么大的问题，所以我开始只找呼吸声的比较完善的数据集。结果 kaggle 里面的确有不少好货（但是我其实先是通过问 AI 得到的数据集名称，然后再找到这上面也有），里面甚至有别人实验使用的代码，于是我就选了一篇六个月前看上去比较体面的代码进行学习。代码内容的确不错，不仅有原始文件的处理（把音频统一到最短的大约 7 秒），还有预处理（计算短时傅里叶变化的色谱图、梅尔频谱图等），以及为很多的参数进行相关性热图，通过随机森林分类查询各参数的重要程度。我看了以后受益匪浅，感觉这样比较规范，比我大海捞针科学得多。