问:
自己说话的声音与从录音机里放出的自己声音不一样,从神经和声学结构两方面解释这一现象。
答:
下面分 声学结构 与 神经环路 两条线,说明为什么“自己听到的声音”与“录音机播放的自己声音”会不一样。
1 声学结构:骨传导 + 气传导的混合比例改变
声音传递路径 | 主要介质 | 频率特性 | 说话时自己听到 | 录音/他人听到 |
---|---|---|---|---|
气传导 | 空气→鼓膜 | 频率响应较完整 | ●(约占 30–50 %) | ●(≈100 %) |
骨传导 | 颅骨→内耳外淋巴 | 低频占比高,类似低通滤波 | ●(约占 50–70 %) | — |
- 骨传导的“低通”效应
颅骨振动传播声能时,高频部分衰减更大,相当于给自己的声音加了一层低频增强滤波,因此我们主观上感觉声音更厚实、低沉。录音只保留空气中传播的频谱,自然显得“尖”“薄”。(pmc.ncbi.nlm.nih.gov) - 自带的“体腔共鸣”
胸腔、咽腔及颅骨内部的反射与衰减,使得骨传导声在 400 Hz 以下有明显共振峰,进一步加深了低频感。麦克风位于体外,这部分共鸣几乎被“屏蔽”掉。(zhihu.com) - 麦克风与扬声器的频响/方向性
录音设备本身的拾音位置、频响曲线、压缩算法,以及播放设备的扬声器箱体声染色,都会再次改变频谱分布,使播放声与“现场声”有细微差异(尤其在中-低频)。这属于外部设备的声学重构,与生理路径无关,但加大了差异感。
2 神经环路:大脑“自声预测”与听觉抑制
环节 | 作用 | 对声音知觉的影响 |
---|---|---|
发声运动指令(喉返神经) | 触发声带震动 | 大脑同时生成 efference copy(运动指令副本) |
中耳反射(镫骨肌反射) | 在声带振动前 ~ 20 ms 收缩,降低鼓膜 & 镫骨传递增益 | 自发声音在内耳的声压级被抑制 10–20 dB |
顶下回/颞上回预测 | 融合听觉反馈与副本,判断“这是我发的声” | 对自声进行神经滤波,主观上更稳定、更低沉 |
外部回放缺少副本 | 播放时运动皮层无对应指令,镫骨肌不收缩 | 同一声压级下,播放声音显得更高、更响、更陌生 |
- 内部模型(efference copy)
说话时,运动皮层把发声指令同时复制给听觉皮层;自声到达时被标记为“自我生成”,感知被抑制。回放声缺少这条副本,大脑当作外部声音处理,主观音色更“锋利”。(pubmed.ncbi.nlm.nih.gov) - 多模态自我识别
研究表明,若把同样的声音通过骨传导并提供相应的面部触觉振动,受试者更易把该声音辨认成“自己的”,说明骨传导-触觉信号与自我声音表征是绑定的,而普通录音缺乏这一通道。(pubmed.ncbi.nlm.nih.gov) - 情感与熟悉度加成
脑内语音记忆长期储存的其实是“骨+气”混合版。回放声与记忆声谱不匹配,容易被标记为“陌生”并引发轻微不适,这是一种高层语音情感对比效应,而非纯粹物理差异。(reddit.com)
3 小结与技巧
- 物理上,你的耳朵在“现场”收到 骨传导低频 + 气传导全频 的混合立体声;录音删除了骨传导低频部分,并被设备频响再次塑形。
- 神经上,大脑对自声有预测+抑制机制;播放声缺少运动副本和骨传导触觉,因此“失配”更大。
- 想让录音更接近自我听感,可尝试:
- 使用贴骨麦克风混录骨传导信号;
- 在耳机中对语音加微量低频 EQ(-3 dB@200 Hz 带宽 1/3 oct);
- 讲话前轻触喉咙录制,与播放同步给予触觉反馈(研究级做法)。
了解这些差异来源后,重新听到“陌生”的自己声音,就能更自然地接受它—那确实就是外界听到的“真实版”你。
(chatGPT o3 model)
Leave a Reply