AI专题二十三:LLM输出图像音频视频的原理

hegangben
2026-04-23 / 0 评论 / 12 阅读 / 正在检测是否收录...

基本原理

大模型通过多模态统一建模技术实现声音、图片和视频的输出,其核心是将不同模态的数据统一转化为离散Token,并共享同一套自回归预测框架。以下是具体机制的分步解析:

一、多模态Token化的基本原理
文本Token化(已有基础)
文本通过BPE等分词算法拆分为子词Token,词汇表(如50K-128K大小)涵盖所有支持语言的子词单元

图像Token化:视觉分块与编码
分块处理:图像被分割为固定大小的patch(如16×16像素),每个patch通过视觉编码器(如ViT)转换为一个视觉Token

分层量化:美团LongCat-Next采用8层残差向量量化(RVQ) ,将图像特征逐层压缩为离散Token,保留轮廓、颜色、纹理等多级信息

示例:224×224图像→196个patch→压缩为28个高语义Token

音频Token化:频谱切片与离散编码
频谱提取:音频信号通过短时傅里叶变换(STFT)转为频谱图,再按时间窗口切分

向量量化:使用VQ-VAE或类似技术将频谱特征离散化为Token序列。例如,10秒音频以10ms步长生成1000个Token,经压缩后保留关键声学特征

情感保留:高级模型(如GPT-SoVITS)会分离语义Token(内容)和声学Token(音色、情绪),实现情感表达

视频Token化:时空联合编码
视频被视为时空连续的图像序列,通过以下步骤处理:
帧采样:按固定帧率提取关键帧,每帧独立Token化

时序建模:引入时间注意力机制,关联不同帧的Token以捕捉动态信息

二、多模态生成的统一架构
原生多模态模型设计
主流方案(如美团LongCat-Next、GPT-4o)采用离散原生自回归架构(DiNA) ,其核心流程为:
输入统一:文本、图像、音频均转化为同源离散Token,共用同一嵌入空间

联合训练:所有模态通过同一Transformer骨干网络处理,共享参数和注意力机制

输出解耦:生成的Token序列通过模态专用解码器还原为原始信号(如HiFi-GAN解码音频Token为波形)
生成过程的协同优化
跨模态注意力:模型在生成时动态关联不同模态的Token。例如,生成“会唱歌的猫”图片时,文本Token“唱歌”会引导视觉Token的嘴部动态

控制Token:插入特殊Token(如[emotion=happy])调节生成风格,实现情感语音或艺术化图像

三、关键技术突破与挑战
模态融合的难点与解决方案
mobj47tu.png

实际应用案例
语音克隆:GPT-SoVITS仅需1分钟音频样本即可克隆音色,通过语义Token控制内容生成

图像编辑:输入文本指令(如“让天空更蓝”),模型修改对应视觉Token并重建图像

实时翻译:GPT-4o将中文语音→文本Token→英文语音Token,全程无需中间转录

四、与传统技术的本质区别
拼接式架构(旧)
流程:语音→ASR→文本→LLM→文本→TTS→语音(信息丢失严重)
缺陷:延迟高、无法保留情感和背景音

原生多模态(新)
优势:
端到端:声音/图像直接进模型,输出时跳过中间转换

情感保留:音频Token编码语气,视觉Token编码光影细节

低延迟:GPT-4o响应时间达200-300毫秒,接近人类对话

图像token

那为什么比如图像要按照16x16像素划分token,那图片 token全集包含什么内容,就是每一个像素点都要rgb三种情况,这样所有组合形成图像库吗?

以下是关于图像Token化中16×16像素划分的原理及Token全集构成的详细解析,结合搜索结果中的关键技术点:

一、为什么选择16×16像素作为基本单元?
计算效率与信息密度的平衡
ViT(Vision Transformer)的经典设计:将图像分割为16×16像素的patch,每个patch包含256个像素(若为RGB图像则展开为256×3=768维向量)。这一尺寸在计算复杂度(序列长度)和局部特征捕获之间达到最优平衡

序列长度控制:例如512×512像素的图像会被划分为1024个token(512/16 × 512/16),若使用更小的patch(如8×8),序列长度将激增至4096,显著增加Transformer的计算负担

与自然语言处理的类比
ViT的提出者将图像patch视为“视觉单词”(An image is worth 16x16 words),通过类似NLP的Token化方式,使Transformer能够统一处理文本和图像

二、图像Token全集包含什么内容?
Token的生成过程
像素值→特征向量:每个16×16的patch通过线性投影(全连接层)转换为一个768维的向量(Token),这一过程并非直接存储RGB组合,而是学习到的高维语义特征

示例:
输入:16×16×3的patch(768个原始像素值)
输出:1个768维Token(包含纹理、颜色、边缘等综合信息)

Token全集的本质
非穷举像素组合:Token全集并非所有可能的RGB排列组合,而是通过模型训练学到的特征空间映射。例如:
相似纹理的patch(如天空的渐变蓝色)会被映射到相近的Token向量;
不同语义的patch(如猫眼和车轮)对应差异显著的Token

动态扩展性:清华大学的DVT(Dynamic Vision Transformer)可自适应调整patch数量和大小,避免固定16×16的冗余计算
三、与RGB像素库的本质区别
mobj6srm.png

四、技术延伸:动态Token化与优化
自适应Token分配
清华团队提出的DVT模型可根据图像内容动态调整patch数量和大小。例如:
简单背景(如纯色天空)使用更少的大patch;
复杂区域(如人脸细节)分配更多小patch

优势:减少冗余Token,提升计算效率(最高可节省40%计算量)

分层Token表示
美团LongCat-Next等模型采用残差向量量化(RVQ) ,将图像特征分层编码为多级Token(轮廓→颜色→细节),进一步压缩信息[未直接引用,参考先前对话]。
五、总结:为什么不是所有像素组合?
维度灾难:直接处理原始RGB组合会导致特征空间爆炸(如16×16 RGB patch有256^3种可能值),而Token化通过降维将信息压缩为语义向量

泛化需求:模型需要学习的是高级语义特征(如“猫耳形状”),而非记忆具体像素排列

硬件友好:固定尺寸patch(如16×16)更适合GPU并行计算

未来趋势可能结合动态分块(DVT)与分层编码(RVQ),实现更高效的视觉Token化

音频token

大语言模型输出音频的token,但是音频包含声音或者音乐,音频输出的是怎么像文字输出建立的一个统一的音频token 总表的? 比如 这个音频token 表里面包含了10ms 的各种离散编码的组合的音频编码吗?

大语言模型处理并输出音频时,其核心奥秘在于将连续的音频波形转化、压缩为一套离散的、有限的“音频词汇表” ,这与处理文本时构建“文本词汇表”的逻辑在思想上同源,但技术路径截然不同。您所设想的“10ms各种离散编码组合”的机制并不精确,但方向正确。下面我将为您详细拆解这一过程。

一、音频Token化的核心流程:从波形到“词汇”
音频Token化的目标,是将人耳听到的连续声音,翻译成计算机和大模型易于处理的“离散符号”序列
2
。这个过程并非简单的按时间切片,而是一个深度压缩与语义提纯的过程。

特征提取与离散化(构建“音频字母”或“音素”) :
模型首先通过一个预训练的神经网络(如语音识别模型的编码器或专用的音频编码器)分析原始音频波形。这个网络会将音频转换为一连串的高维特征向量,这些向量捕获了声音在短时间内的频谱、音调、音色等关键信息

。随后,通过 “矢量量化” 技术,将这些连续的向量映射到一个有限的、预定义的码本中最近似的离散项。码本中的每一个项,就是一个基础的音频Token

。您可以将其理解为构成音频的“基本字母”或“音素”。
形成Token序列(组成“音频单词”或“句子”) :
经过上述过程,一段数秒的音频被转化为一串离散的Token序列,例如每个Token都对应码本中的一个索引。这个码本,就是您所说的“统一的音频Token总表”

。值得注意的是,先进的Token化工具(如Qwen3-TTS-Tokenizer-12Hz)的“12Hz”并非音频采样率,而是指Token序列的帧率,即每秒输出约12个Token

。这意味着每个Token承载了约83毫秒(1/12秒)音频片段的丰富语义信息,而非简单的10ms机械切片。这种低帧率、高信息密度的Token是实现高效压缩(将大的.wav、.mp3文件变成极小的.pt文件)和高保真重建的关键

二、多模态词汇表的统一:让模型“能听会说”
要让一个大语言模型同时处理文本和音频,就需要构建一个融合的多模态词汇表。这是实现AudioPaLM等“能讲会听”模型的关键

文本侧:使用成熟的子词分词方法(如SentencePiece)生成文本Token词汇表

音频侧:如上所述,通过音频编码器和矢量量化,生成音频Token词汇表

词汇表融合:将这两个词汇表合并,并为不同模态的数据添加特殊的起始、结束和分隔标记(如[AUDIO_START], [TEXT_START], [SEP])

。最终,模型看到的输入,无论是文字还是声音,都被统一为同一套整数ID序列。这使得一个基于Transformer架构的模型能够以处理文本的方式,自回归地预测和生成下一个音频Token,从而实现语音理解、语音生成甚至语音翻译

三、高级Token:从“音素”到“语义”
最新的研究进一步区分了音频Token的层次,以追求更高质量的输出:

语义Token:关注音频“说了什么内容”,通常由在语音识别任务上训练的模型产生,能更好地捕捉语言信息。例如,监督语义令牌(S³ tokens) 通过在语音识别编码器中插入矢量量化获得,在零样本语音克隆中表现更优

声学Token:关注音频“听起来如何”,如音色、音质、韵律细节。这些Token可能由其他网络分支生成,用于在后续阶段(如通过Flow Matching模型)还原声音的细腻质感

总结来说,大语言模型输出的音频Token,源于一个精心构建的、离散的“音频词汇表”。这个词汇表不是对原始波形进行固定时长(如10ms)切片编码的集合,而是通过深度学习网络提取特征并量化后,形成的低帧率、高信息密度的语义/声学单元集合。通过将此类音频词汇表与文本词汇表融合,模型便具备了统一处理和理解多模态信息的能力,实现了用同一种“语言”(Token序列)来描述和生成文字与声音

第一部分:文本转语音 (TTS) - 追求“拟人”的语音Token化
这种场景的目标是将文字转化为宛如真人般的自然语音。其“语音表”(即音频Token词汇表)的建立,是一个深度压缩与重建的过程,远非简单映射。

“语音表”的建立:从波形到语义/声学Token
其核心并非建立一个包含所有可能人声片段的巨大数据库,而是训练一个深度神经网络来学习语音的底层特征表示。这个过程通常分两步:
特征提取:模型(如CosyVoice的生成式神经网络)会分析海量的真人语音数据,学习将连续的音频波形压缩成一系列高维特征向量。这些向量编码了在极短时间内(远短于10ms)的声音频谱、音高、音色等信息

矢量量化与Token生成:随后,通过“矢量量化”技术,将这些连续的特征向量映射到一个有限的、预设的“码本”中最近似的离散项。码本中的每一项,就是一个基础的音频Token。这个码本就是模型的“语音表”。先进的系统会生成不同层次的Token,例如:
语义Token:捕获“说了什么内容”,与文本强相关。
声学Token:捕获“听起来怎么样”,如音色、韵律细节。CosyVoice模型就能支持笑声、语气词等富语言事件及多情感的生成

如何模拟人的音色和语气?
这依赖于模型在训练阶段对大规模、高质量、多音色语料的深度学习

音色模拟:模型通过学习不同说话人(性别、年龄、方言)的海量语音样本,在其内部表征中形成了对不同音色特征的编码能力。在合成时,通过输入指定的“说话人ID”向量或一段参考音频(声音复刻),模型就能从“语音表”中选择并组合出对应音色的Token序列

语气与韵律模拟:这是更具挑战的部分。模型需要深度理解文本的语义和情感。例如,CosyVoice大模型是依托大规模预训练语言模型,深度融合文本理解和语音生成的技术

。它会先理解文本的含义、语境和潜在情感(如疑问、感叹、严肃、欢快),然后将这种理解转化为对声学Token生成过程的控制,自动调节生成的语音在语调、节奏、重音上的细微变化,从而实现超拟人程度的表达

第二部分:音乐生成 - 创造“结构化”的听觉艺术
您认为音乐生成只是“音符汇总”,这是一个常见的误解。实际上,其“音乐表”(或称音乐Token词汇表)的构建同样复杂,且挑战维度不同。

“音乐表”的建立:超越音符的多维编码
一个现代音乐生成模型(如MusicLM、MAGNeT)的Token表,远不止是“Do、Re、Mi”。它是一个对音乐进行多维度、分层离散化的复杂系统,通常包括:
音高与时值Token:这确实对应基本的音符(如C4)和时长(如四分音符)。
乐器(音色)Token:指定由哪种乐器演奏,如钢琴、小提琴、鼓组。
和声与节奏Token:编码和弦进行(如C大和弦)和复杂的节奏型。
结构Token:标记乐曲的段落,如主歌、副歌、间奏。
情感或风格Token:指示生成“欢快的巴洛克风格”或“忧伤的蓝调”。
因此,其Token表是一个多维交叉的庞大集合,用以精确描述音乐在时间轴上的每一个瞬间的多个属性。
音乐生成的独特挑战
音乐生成的难度不在于基础单元的多少,而在于长程结构建模和抽象审美创造。
复杂的长期依赖:一首好听的曲子需要前后呼应,主旋律的发展、和声的解决都有严格的音乐理论规则。模型必须像创作文本一样,生成一个在长时间跨度内(数分钟)都保持和谐、有结构、有发展逻辑的Token序列。
抽象性与创造性:与语音追求“还原真实”不同,音乐生成更追求“创造新颖且悦耳”的内容。这要求模型不仅学习现有音乐作品的统计规律,还要能够进行有意义的组合与创新,其评价标准(是否好听)比语音的“是否自然”更为主观和复杂。
总结与比较
综合来看,您的观察是敏锐的:

文本转语音的技术焦点在于 “感知自然度” 。它需要将深层文本语义与细腻的声学表现(音色、韵律、情感)进行超高精度的对齐和重建
。其“语音表”的建立,核心是对连续、高维的人声特征进行高效、保真的离散化,技术难度集中在建模的精细度和拟真度上。
音乐生成的技术焦点在于 “结构创造性与听觉审美” 。它需要对音乐这种高度结构化、多维度并行的艺术形式进行建模。其“音乐表”是对音乐多重属性(音高、时长、音色、和声、结构)的联合离散化。技术难度集中在长序列的连贯建模、复杂规则的遵守,以及抽象审美质量的把控上。

大语言文本转语音 (TTS) 是2个语音词汇表的吗? 一种是输出读音,一种输出气氛和预测,将2个音频词汇表的内容叠加处理后再输出吗?

现代先进的TTS大模型,其核心并非拥有两个独立的“语音词汇表”进行物理叠加,而是在一个统一、端到端的模型架构中,由不同功能模块分别处理和生成声音的不同维度特征(如内容、音色、韵律、情感),并最终在隐空间(Latent Space)中进行深度融合与同步生成

具体来说,其工作原理可以分解为以下三个关键部分:

  1. 单一、统一的建模目标:从文本到完整声音
    现代端到端TTS模型(如CosyVoice)的设计目标,是直接将文本序列映射为高保真的音频波形

。这个过程并非先将读音和气氛分别生成两段音频再混合,而是在生成每一帧声音的频谱特征(如梅尔频谱)时,就同步、一体化地决定了该时刻的发音内容、音高、语速和情感色彩

。您可以将其理解为,模型有一个统一的“声音生成器”,这个生成器在每一瞬间的输出,已经包含了您所提到的所有元素。

  1. 模型内的功能分工:特征提取与绑定
    为了实现上述目标,模型内部会有清晰的功能模块划分,但它们之间是紧密耦合、协同工作的:

文本语义理解模块(如Transformer) :负责深度理解输入文本的语义、句法和潜在情感

。这相当于决定了“要说什么”以及“以何种情绪说”。
说话人/音色编码器:负责从极短的参考音频(如3-5秒)中,提取出说话人独特的音色特征,形成一个“音色身份证”

。这决定了“谁来说”。
声学特征生成模块:这是核心融合与生成环节。该模块(常采用交叉注意力等机制)将上述的文本语义向量和音色特征向量在模型内部进行深度融合与对齐

。在这个过程中,模型学会了如何为特定的文本内容,配上符合其语义的情感韵律(如疑问句的语调上扬、悲伤语气的低沉缓慢),同时保持音色的统一。
声码器(如HiFi-GAN, WaveNet) :负责将前面生成的、融合了所有信息的中间声学特征(频谱),合成为最终我们听到的、平滑自然的连续音频波形

。其质量直接决定了输出语音的清晰度与真实感。

  1. 结论:是特征融合,而非词汇表叠加
    因此,答案是:大语言文本转语音(TTS)并非使用两个独立的“音频词汇表” 。它是一个高度集成的深度学习系统,内部虽有分工,但最终通过端到端的训练,让模型学会从一个统一的视角,根据文本和指定的音色/情感参数,直接合成出承载了所有信息(读音、语气、情感)的声学特征和最终波形

。这个过程更类似于一位配音演员在理解剧本(文本语义)和导演要求(情感、音色指示)后,一次性表演出一段完整的、富有感染力的台词,而不是先录好干音再后期添加情绪效果。

总结来说,您观察到的“读音”和“气氛”是两个至关重要的输出维度,但它们在模型中是同源共生、一体化生成的,这恰恰是当前TTS大模型实现“超拟人对话”和“丰富的情感表达”的技术关键

视频token

大语言模型建立视频的Token词汇表,其核心思想与处理图像、音频一脉相承:将高维、连续、包含时空信息的视频数据,压缩并离散化为一个由有限“视觉词汇”组成的序列,以便Transformer架构能够像处理文本一样对其进行理解和生成

。然而,视频因其固有的时空双重复杂性,其Token化策略面临着独特挑战并演化出了更精巧的解决方案。

一、核心挑战:从静态图像到动态时空
与单张图像不同,视频是时间轴上一系列图像的集合,信息密度极高。直接将其视为独立帧序列进行Token化,会产生数量庞大的Token(例如,一秒30帧的1080p视频,若每帧切成196个patch,一秒就会产生近6000个Token),导致计算和内存开销巨大,且难以捕捉帧间的动态关联

因此,视频Token化的目标不仅是空间上的离散化,更是时间上的有效压缩与语义提取。

二、主流视频Token化方法
根据您的搜索结果,视频Token化主要遵循以下策略:

视频帧序列化(基础方法)
这是最直观的方法,即将视频按帧采样,然后对每一帧图像单独进行Token化(例如,使用ViT的图像块嵌入方法,将每帧分割成多个Patch作为Token)

。随后,将这些帧的Token序列按时间顺序拼接,形成整个视频的超长Token序列。这种方法简单,但Token数量爆炸,且未能显式建模帧间的运动信息,效率低下,通常需要配合强大的下采样或聚合技术才能喂给LLM

时空块Token化(Spatiotemporal Patch Embedding)
这是对图像块嵌入方法的直接扩展。模型(如Video Transformer)将视频视为一个三维立方体(高度×宽度×时间) ,并将其切割成一个个时空块(例如,16x16像素 x 4帧)。每个三维块被展平后通过线性投影成为一个Token
1
。这种方法在一个Token中同时编码了局部空间外观和短时动态,是更高效的视频理解基础。但其Token总量仍然庞大,且固定的网格划分可能与视频中运动的物体边界不符。
基于对象与动态的先进Token化(如VideoOrion框架)
为了克服上述方法导致的细节丢失和语义纠缠问题,前沿研究提出了更接近人类认知的Token化策略。以VideoOrion框架为例,它不再均匀切割视频网格,而是将视频中显著的、运动的“对象”及其演化过程作为一级语义单位进行编码,实现了高效的细节感知

双分支编码:模型并行生成两类Token:
Context Tokens:使用视觉编码器(如CLIP)对采样的视频帧进行编码,生成承载背景、场景等全局信息的Token

Object Tokens:通过一个“检测-分割-跟踪”的流水线,识别出视频中的关键前景物体,并跨帧跟踪其掩码。对每个被跟踪物体随时间演化的特征进行池化和投影,形成紧凑的Object Token。每个Object Token代表一个独立实体(如“红色三轮滑板车”)在整个片段中的动态

优势:这种方法将物体动态显式提炼为离散Token,既极大压缩了数据量(Object Tokens数量可控),又让大语言模型能够自然地对齐和理解“谁在做什么”,从而支持细粒度的视频问答和指代理解(例如,准确回答“那个穿黑色泳装的人做了什么动作?”)

三、视频Token词汇表的本质
所谓的“视频Token词汇表”,并非一个包含所有可能视频片段的字典。其建立过程通常依赖于矢量量化(Vector Quantization)技术。具体而言:

通过一个视频编码器神经网络,将输入的视频片段(或时空块)映射为一系列连续的特征向量。
这些特征向量会被匹配到一个预训练好的、有限的“码本” 中。这个码本包含了数百到数千个具有代表性的视觉模式原型(可以理解为“视觉词汇”)

每个特征向量被替换为码本中与之最接近的原型的索引编号。这个索引编号就是一个视频Token,而整个码本就构成了模型的“视频Token词汇表”

四、关键优化:Token压缩
由于原始视频Token序列过长,Token压缩技术已成为视频大模型实用化的关键。压缩可以在不同阶段进行

在视觉编码器内部:通过多尺度压缩、自适应采样等方法,在编码初期就减少冗余的视觉Toke
在投影器中:在将视觉特征映射到语言模型空间的过程中,合并或筛选重要的Token

这些压缩技术的目标是在保留核心语义信息的前提下,显著降低计算负担和延迟,使高分辨率、长视频的处理成为可能

总结来说,大语言模型为视频建立Token词汇表,是一个从“均匀时空切片”向“语义对象中心”演进的精细化过程。其趋势是:不再简单地将视频视为像素的集合,而是通过先进的对象检测与跟踪技术,将其解构成一系列离散的、具有时空延续性的“对象叙事单元”(Object Tokens),并与场景上下文(Context Tokens)结合,共同构成大模型能够高效理解和生成的“视频语言”

。这一过程深刻结合了计算机视觉的感知能力与大语言模型的推理能力,是实现复杂视频理解与生成的基石。

0

评论 (0)

取消