type
status
date
slug
summary
tags
category
icon
password
对 AI 论文中的 MainTask(主要任务) 进行框架化。Model Card 将详细说明每个 MainTask 的输入、输出、评估标准和方法,提供更为透明和结构化的信息。特殊情况处理:对无法提取的信息标注“None”。
下面是对 Model Card 的主要框架定义,以及需要提取的 Low-Level 细节维度与选项说明:
本框架旨在系统性地解析一篇 AI 学术论文。它将信息分为两层:
- High-Level Classification (高层级分类):用于提取文中关键信息并将其归类到固定的几个选项中。
- Low-Level Description (低层级描述):对 High-Level Classification 的详细解释、具体示例和上下文补充。
📝 AI Paper Model Card (AI 论文模型卡片)
Part 1: Low-Level Description (低层级描述)
核心原则:从 PDF 中直接提取具体的、细粒度的信息;每个字段都需要对应证据(Snippet/Page/Section)。
1. Input (输入)
1.1 Data Type (数据类型)
Text (文本 / 符号序列)
- 定义:由离散符号构成、可线性序列化的输入。
- 典型形式:
- Raw text strings (自然语言、说明文字、对话)
- Tokenized sequences (BPE / WordPiece / 字符级 token)
- Text embeddings (Token embedding, sentence embedding,若作为模型直接输入)
- 注意:Code (代码), Math (数学公式), Log (日志), SQL 也属于 Text (本质是符号序列)。
- 边界提示:
- 如果“文本”来自 OCR,但模型实际输入是 OCR 后的 token 序列 → Text。
- 如果模型输入是图片像素并在内部做 OCR / 视觉编码 → Vision。
Vision (视觉)
- 定义:以空间结构为主的视觉信号输入,模型接收像素 / patch / 视觉特征等。
- 典型形式:
- Static images (照片、文档扫描、截图、图表、自然图像)
- Video frames / clips (视频帧序列、短视频片段)
- Medical imaging (X-ray / CT / MRI / 超声等 2D / 3D / 体数据)
- Visual derivatives (Depth map / segmentation map / optical flow,只要作为输入喂给模型)
- 提取细节:建议注明是 2D 还是 3D/volumetric,分辨率 (e.g., 224x224),帧率,patch size 等。
Audio (音频)
- 定义:声学信号输入,模型接收波形或声学特征表示。
- 典型形式:
- Speech (语音)
- Environmental sounds (环境音)
- Music (音乐)
- Spectrogram / MFCC 等 (若作为输入)
- 边界提示:音频转写后的文本作为输入 → Text;音频本体 / 特征作为输入 → Audio。
Multimodal (多模态)
- 定义:模型在同一次任务 / forward 中联合使用两种或以上不同模态输入,并存在对齐、融合或跨模态推理。
- 提取细节:必须写清楚组合方式 (e.g., Image + Text, Video + Audio + Text) 以及融合方式 (e.g., early fusion, late fusion, cross-attention)。
Other (其他结构化或特殊输入)
- 定义:不属于 Text/Vision/Audio 的输入类型。
- 常见子类型:
- Tabular:表格特征、结构化字段、电子病历结构化项。
- Time-series / Sensor:传感器序列、IoT、IMU、金融序列。
- Graph:社交网络图、知识图谱三元组、分子图 (nodes/edges features)。
- 3D geometry / Point cloud:LiDAR 点云、mesh、NeRF sampling 点等。
- Trajectory / Control signals:机器人轨迹、动作序列。
- Retrieval index / KB:显式检索到的条目若以非文本形式输入,也可归这里。
1.2 Data Source (数据来源)
- 内容:数据集名称与来源简述。
- 示例:ImageNet-1K, COCO, Cityscapes, CIFAR-10, GLUE, SQuAD, LibriSpeech, MS MARCO。
- 特殊情况:
- Self-collected (作者自建):包含采集/清洗/标注简述。
- Synthetic Data (合成数据):Simulator-generated trajectories, synthetic captions。
- 关键区分:对于 Public 数据,需明确是 Open Access (开放获取) 还是 Licensed (需授权)。
1.3 Sample Size (样本规模)
- 内容:原文给出的规模数字与口径。
- 示例:
- 图像: #images = 1.28M
- 文本: #tokens = 300B, #pairs = 400M
- 语音: #hours = 960h
- RL: #episodes / #steps
- 划分:Train / Val / Test 分别多少。
2. Output (输出)
2.1 Output Object & 2.2 Output Type (输出对象与类型)
明确最终输出“是什么东西”以及“任务形式”,参考以下详细分类:
A. Prediction (Fixed Form) - 预测输出
- Classification (分类):
- Binary classification:输出为两个类别之一 (e.g., {是, 否})。
- Multi-class classification:输出为 K>2 个类别之一 (单标签)。
- Multi-label classification:输出是标签的子集 (多个标签可以为真)。
- Regression (回归):输出为连续值 (标量或向量),例如温度、价格、坐标。
- Ranking / Scoring (排名/评分):输出项目的排序或分数 (e.g., 搜索排名、推荐打分)。
- 注意:如果模型同时输出标签和概率,优先归类为“Classification”。
B. Probability (Uncertainty) - 概率输出
- 定义:输出结果是概率分布或不确定性估计,而不仅仅是一个预测点。
- 形式:类别概率 (softmax 向量)、预测区间 / 分位数、分布的参数 (均值/方差)、全密度函数。
C. Generative Output (Open Content) - 生成式输出
- 定义:输出是生成的开放式内容 (通常由解码器构建,长度可变)。
- 形式:
- Text Generation:摘要、推理、代码、翻译、对话。
- Vision Generation:图像、视频帧。
- Audio Generation:语音、音乐。
- Multimodal Generation:例如 Text+Image,Video+Audio。
- Other:3D、分子结构等。
D. Structured Prediction - 结构化标注输出
- 定义:输出是一个具有预定义模式的结构化对象。
- 形式:
- Span / Tags (NER, POS tagging)。
- Bounding boxes / Masks / Keypoints (检测与分割)。
- Table / JSON / Graph。
- QA Answer + Evidence Span。
- Program trace / Formal proof (受模式约束)。
E. Representation - 表征性输出
- 定义:输出是一个向量 / 潜在表示 (Embedding),旨在供下游使用 (检索、聚类、相似性)。
F. Action / Control - 动作/控制输出
- 定义:输出是一个动作或一系列动作。
- 形式:工具调用 (Tool use)、机器人控制、导航移动、策略 (Policy)。
提取细节补充:
- 必要时写明粒度 (token-level / pixel-level / sample-level)。
- 简述后处理 (阈值、NMS、reranking、解码策略如 beam search / top-p)。
3. Method (方法)
3.1 Learning Paradigm (学习范式)
说明训练/学习方式与阶段。若为多阶段,请按顺序描述 (e.g., Pretrain → Finetune) 并明确每阶段在做什么。
- Training-free / No-learning (无训练):
- Prompting-only:Zero/few-shot in-context,不更新参数。
- Decoding / inference-time control:Beam search, self-consistency, constrained decoding。
- Test-time compute / search:Best-of-N, tree search, verifier-based selection。
- Retrieval-augmented inference (no training):使用固定检索器。
- External tool use (no learning):使用计算器、API、代码执行器而不更新权重。
- Supervised Learning (监督学习):完全监督 (人工标注)、弱监督 (噪声/启发式标签)、远程监督 (规则推断)、半监督。
- Self-supervised Learning (自监督学习):Masked LM, Next token prediction, Contrastive learning (对比学习)。
- Unsupervised Learning (无监督学习):聚类、密度估计、降维 (无明确标签)。
- Reinforcement Learning (强化学习):
- Online RL:训练中进行交互。
- Offline RL:从记录轨迹中学习。
- Preference-based RL:RLHF / DPO / PPO / GRPO (基于偏好/奖励模型)。
- Imitation / Behavior Cloning (模仿/行为克隆):从示范中学习 (状态 → 动作),无显式奖励。
- Hybrid / Multi-paradigm (混合范式):混合使用多种范式。
3.2 Model Architecture (模型架构)
用原文描述提取关键结构特征,并提取 Specific Model (具体模型名称/变体)。必要时记录参数量、层数、hidden size、context length 等规格 (e.g., ResNet-50, LLaMA-2-7B)。
- Feedforward / MLP (non-convolutional, non-recurrent, non-attention)
- 定义:纯线性层堆叠 (+ nonlinearity, normalization, residuals)。无卷积核,无循环,无 attention。
- 包含:classic MLPs, ResMLP, MLP-Mixer (if truly no attention/conv), deep tabular MLPs。
- Convolutional (CNN)
- 定义:卷积是核心构建块 (1D/2D/3D, depthwise, dilated),通常配合 pooling/strides。
- 包含:ResNet, ConvNeXt, UNet (CNN-based), Temporal Conv Nets, fully-convolutional segmentation nets。
- Recurrent (RNN family)
- 定义:在时间/序列上使用循环,隐状态逐步更新 (RNN/LSTM/GRU 及其变体)。
- 包含:Seq2seq RNNs, BiLSTM encoders, RNNT, classical attention-over-RNN hybrids (若循环占主导)。
- Transformer / Attention-based
- 定义:Self-attention / cross-attention 块是主要的混合操作 (full/sparse/linear attention 均算)。
- 包含:encoder-only (BERT), decoder-only (GPT), encoder-decoder (T5), ViT, multimodal Transformers。
- Graph Neural Network (GNN / Message Passing)
- 定义:计算定义在图上,以消息传递 / 邻域聚合为核心操作。
- 包含:GCN, GAT, GraphSAGE, MPNN, graph pooling readouts。(P.S.: MPNN 是很早的一篇用 AI 的方法做量子化学的工作)。
- 经验法则:如果边/邻域聚合在每一层都是基础 → GNN。
- Generative Models (生成模型)
- 定义:当核心方法是通常作为一个独立家族讨论的生成机制时使用此标签,而不仅仅是“能生成文本的模型”。
- 包含:Diffusion / score-based models, GAN, VAE, Normalizing flows, Autoregressive generative models (当生成过程是重点时,如 PixelCNN;注意:GPT-Style LLMs 不归为此类,它们归为 Transformer)。
- State-Space / SSM
- 定义:主要通过状态空间动力学 / selective scan / convolutional state-space kernels 进行序列建模,而非 attention 或循环。
- 包含:S4 family, Mamba-like selective state-space models, linear dynamical sequence backbones。
- Other
- 定义:核心架构不符合上述任何一种。
- 示例:Kernel methods (SVM, GP), NeRF-style implicit fields 等。
- Hybrid / Modular system (混合/模块化系统)
- 定义:两个或更多骨干家族在主计算图中同等重要,或系统由不同模块组成 (e.g., retriever + generator + reranker)。
- 示例:CNN+Transformer (Conv stem + large attention trunk), GNN+Transformer (两者都很深且核心), Mixture-of-Experts with heterogeneous experts, RAG pipelines。
- Unknown / None
- 定义:信息不足,或无学习模型 (rules/heuristics only)。
4. Evaluation Criteria (评估标准)
尽量同时记录:在哪个数据集/设置下测 (split, zero-shot/few-shot/finetune),以及是否有均值±方差/置信区间/重复次数。
核心聚焦:性能表现与计算效率(基于学术界硬指标)。
- Performance Metrics (性能指标)
- 提取内容:论文报告的核心结果指标(可多条)。
- 示例:Accuracy, F1, AUC, mAP (检测), mIoU (分割), MAE/RMSE (回归), BLEU/ROUGE (文本), FID (图像), Win-rate (胜率)。
- 实验设置:必须记录是在哪个 Split (Val/Test) 以及哪种 Setting (Zero-shot / Few-shot / Fully-finetuned) 下测得。
- 统计严谨性:若文中有提供,提取 均值±方差 (Mean ± Std) 或 置信区间。
- Efficiency Metrics (效率指标)
- 提取内容:模型运行成本与复杂度。
- 示例:
- Latency/Throughput:推理延迟 (ms), 吞吐量 (tokens/sec, images/sec)。
- Computational Cost:FLOPs (浮点运算次数), MACs。
- Model Size:Parameter count (参数量), Disk size, Memory footprint (显存占用)。
- 硬件环境:记录测试所用的硬件 (e.g., A100, TPU v4)。
Part 2: High-Level Classification (标准化分类层)
任务:基于 Low-Level 的自然语言描述,将论文分类到以下标准化标签中(多选)。
1. Input Data Type (输入数据类型)
Text (Raw strings, tokens, code, embeddings, OCR-ed text)
Vision (Images, video, medical scans, pixel-based inputs)
Audio (Waveform, spectrograms, speech, music)
Multimodal (Joint input of >1 types, e.g., Image-Text pairs)
Other (Tabular, Graph, 3D Point Cloud, Trajectory, etc.)
2. Input Data Source (输入数据来源)
Public - Open Access
Public - Licensed
Private Data
Simulated / Synthetic Data
Other
Unknown / None
3. Input Sample Size (输入样本规模)
Small (<10k)
Medium (10k–1M)
Large (>1M)
Unknown / None
4. Output Type (输出类型)
- A. Prediction (Fixed Form)
Binary Classification
Multi-class Classification
Multi-label Classification
Regression (Continuous value)
Ranking / Scoring
- B. Probability (Uncertainty)
Probability Distribution / Intervals / Density
- C. Generative (Open Content)
Text Generation
Vision Generation
Audio Generation
Multimodal Generation
Other Modality Generation (3D/Molecule)
- D. Structured Output
Structured Prediction (Spans, BBoxes, JSON, Tables)
- E. Representation
Embedding / Latent Representation
- F. Action / Control
Actions / Decisions / Policy
- G. Other / Unknown
Other / Unknown
5. Method - Learning Paradigm (方法 - 学习范式)
Training-free / No-learning (Prompting, RAG-no-train, Tool use)
Supervised Learning (Full, Weak, Remote)
Self-supervised Learning (Masking, Contrastive)
Unsupervised Learning (Clustering, Density estimation)
Reinforcement Learning (Online, Offline, RLHF/DPO)
Imitation / Behavior Cloning
Hybrid / Multi-paradigm (e.g., Pretrain -> Finetune -> RLHF)
Other / Unknown
6. Method - Model Architecture (方法 - 模型架构)
Feedforward / MLP (No conv/recurrence/attention)
CNN (Convolutional)
RNN (Recurrent, LSTM, GRU)
Transformer (Attention-based, BERT, GPT, ViT)
GNN (Graph / Message Passing)
Generative Models (Diffusion, GAN, VAE, Flow - NOT GPT)
State-Space / SSM (Mamba, S4)
Hybrid / Modular (Composition of distinct backbones)
Other / Unknown
📎 参考文章
- none
有关上述问题,欢迎您在底部评论区留言,一起交流~
- Author:zijiantianjiang
- URL:http://preview.tangly1024.com/article/2f33223f-da74-8091-81ea-cdb968c67b73
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!
Relate Posts




