AI论文内容提取标准制定

type

status

date

slug

summary

📝 AI Paper Model Card (AI 论文模型卡片)

Part 1: Low-Level Description (低层级描述)

核心原则：从 PDF 中直接提取具体的、细粒度的信息；每个字段都需要对应证据（Snippet/Page/Section）。

1. Input (输入)

1.1 Data Type (数据类型)

Text (文本 / 符号序列)

定义：由离散符号构成、可线性序列化的输入。

典型形式：

Raw text strings (自然语言、说明文字、对话)
Tokenized sequences (BPE / WordPiece / 字符级 token)
Text embeddings (Token embedding, sentence embedding，若作为模型直接输入)

注意：Code (代码), Math (数学公式), Log (日志), SQL 也属于 Text (本质是符号序列)。

边界提示：

如果“文本”来自 OCR，但模型实际输入是 OCR 后的 token 序列 → Text。
如果模型输入是图片像素并在内部做 OCR / 视觉编码 → Vision。

Vision (视觉)

定义：以空间结构为主的视觉信号输入，模型接收像素 / patch / 视觉特征等。

典型形式：

Static images (照片、文档扫描、截图、图表、自然图像)
Video frames / clips (视频帧序列、短视频片段)
Medical imaging (X-ray / CT / MRI / 超声等 2D / 3D / 体数据)
Visual derivatives (Depth map / segmentation map / optical flow，只要作为输入喂给模型)

提取细节：建议注明是 2D 还是 3D/volumetric，分辨率 (e.g., 224x224)，帧率，patch size 等。

Audio (音频)

定义：声学信号输入，模型接收波形或声学特征表示。

典型形式：

Speech (语音)
Environmental sounds (环境音)
Music (音乐)
Spectrogram / MFCC 等 (若作为输入)

边界提示：音频转写后的文本作为输入 → Text；音频本体 / 特征作为输入 → Audio。

Multimodal (多模态)

定义：模型在同一次任务 / forward 中联合使用两种或以上不同模态输入，并存在对齐、融合或跨模态推理。

提取细节：必须写清楚组合方式 (e.g., Image + Text, Video + Audio + Text) 以及融合方式 (e.g., early fusion, late fusion, cross-attention)。

Other (其他结构化或特殊输入)

定义：不属于 Text/Vision/Audio 的输入类型。

常见子类型：

Tabular：表格特征、结构化字段、电子病历结构化项。
Time-series / Sensor：传感器序列、IoT、IMU、金融序列。
Graph：社交网络图、知识图谱三元组、分子图 (nodes/edges features)。
3D geometry / Point cloud：LiDAR 点云、mesh、NeRF sampling 点等。
Trajectory / Control signals：机器人轨迹、动作序列。
Retrieval index / KB：显式检索到的条目若以非文本形式输入，也可归这里。

1.2 Data Source (数据来源)

内容：数据集名称与来源简述。

示例：ImageNet-1K, COCO, Cityscapes, CIFAR-10, GLUE, SQuAD, LibriSpeech, MS MARCO。

特殊情况：

Self-collected (作者自建)：包含采集/清洗/标注简述。
Synthetic Data (合成数据)：Simulator-generated trajectories, synthetic captions。

关键区分：对于 Public 数据，需明确是 Open Access (开放获取) 还是 Licensed (需授权)。

1.3 Sample Size (样本规模)

内容：原文给出的规模数字与口径。

示例：

图像: #images = 1.28M
文本: #tokens = 300B, #pairs = 400M
语音: #hours = 960h
RL: #episodes / #steps

划分：Train / Val / Test 分别多少。

2. Output (输出)

2.1 Output Object & 2.2 Output Type (输出对象与类型)

明确最终输出“是什么东西”以及“任务形式”，参考以下详细分类：

A. Prediction (Fixed Form) - 预测输出

Classification (分类)：

Binary classification：输出为两个类别之一 (e.g., {是, 否})。
Multi-class classification：输出为 K>2 个类别之一 (单标签)。
Multi-label classification：输出是标签的子集 (多个标签可以为真)。

Regression (回归)：输出为连续值 (标量或向量)，例如温度、价格、坐标。

Ranking / Scoring (排名/评分)：输出项目的排序或分数 (e.g., 搜索排名、推荐打分)。

注意：如果模型同时输出标签和概率，优先归类为“Classification”。

B. Probability (Uncertainty) - 概率输出

定义：输出结果是概率分布或不确定性估计，而不仅仅是一个预测点。

形式：类别概率 (softmax 向量)、预测区间 / 分位数、分布的参数 (均值/方差)、全密度函数。

C. Generative Output (Open Content) - 生成式输出

定义：输出是生成的开放式内容 (通常由解码器构建，长度可变)。

形式：

Text Generation：摘要、推理、代码、翻译、对话。
Vision Generation：图像、视频帧。
Audio Generation：语音、音乐。
Multimodal Generation：例如 Text+Image，Video+Audio。
Other：3D、分子结构等。

D. Structured Prediction - 结构化标注输出

定义：输出是一个具有预定义模式的结构化对象。

形式：

Span / Tags (NER, POS tagging)。
Bounding boxes / Masks / Keypoints (检测与分割)。
Table / JSON / Graph。
QA Answer + Evidence Span。
Program trace / Formal proof (受模式约束)。

E. Representation - 表征性输出

定义：输出是一个向量 / 潜在表示 (Embedding)，旨在供下游使用 (检索、聚类、相似性)。

F. Action / Control - 动作/控制输出

定义：输出是一个动作或一系列动作。

形式：工具调用 (Tool use)、机器人控制、导航移动、策略 (Policy)。

提取细节补充：

必要时写明粒度 (token-level / pixel-level / sample-level)。

简述后处理 (阈值、NMS、reranking、解码策略如 beam search / top-p)。

3. Method (方法)

3.1 Learning Paradigm (学习范式)

说明训练/学习方式与阶段。若为多阶段，请按顺序描述 (e.g., Pretrain → Finetune) 并明确每阶段在做什么。

Training-free / No-learning (无训练)：

Prompting-only：Zero/few-shot in-context，不更新参数。

Decoding / inference-time control：Beam search, self-consistency, constrained decoding。

Test-time compute / search：Best-of-N, tree search, verifier-based selection。

Retrieval-augmented inference (no training)：使用固定检索器。

External tool use (no learning)：使用计算器、API、代码执行器而不更新权重。

Supervised Learning (监督学习)：完全监督 (人工标注)、弱监督 (噪声/启发式标签)、远程监督 (规则推断)、半监督。

Self-supervised Learning (自监督学习)：Masked LM, Next token prediction, Contrastive learning (对比学习)。

Unsupervised Learning (无监督学习)：聚类、密度估计、降维 (无明确标签)。

Reinforcement Learning (强化学习)：

Online RL：训练中进行交互。

Offline RL：从记录轨迹中学习。

Preference-based RL：RLHF / DPO / PPO / GRPO (基于偏好/奖励模型)。

Imitation / Behavior Cloning (模仿/行为克隆)：从示范中学习 (状态 → 动作)，无显式奖励。

Hybrid / Multi-paradigm (混合范式)：混合使用多种范式。

3.2 Model Architecture (模型架构)

用原文描述提取关键结构特征，并提取 Specific Model (具体模型名称/变体)。必要时记录参数量、层数、hidden size、context length 等规格 (e.g., ResNet-50, LLaMA-2-7B)。

Feedforward / MLP (non-convolutional, non-recurrent, non-attention)

定义：纯线性层堆叠 (+ nonlinearity, normalization, residuals)。无卷积核，无循环，无 attention。
包含：classic MLPs, ResMLP, MLP-Mixer (if truly no attention/conv), deep tabular MLPs。

Convolutional (CNN)

定义：卷积是核心构建块 (1D/2D/3D, depthwise, dilated)，通常配合 pooling/strides。
包含：ResNet, ConvNeXt, UNet (CNN-based), Temporal Conv Nets, fully-convolutional segmentation nets。

Recurrent (RNN family)

定义：在时间/序列上使用循环，隐状态逐步更新 (RNN/LSTM/GRU 及其变体)。
包含：Seq2seq RNNs, BiLSTM encoders, RNNT, classical attention-over-RNN hybrids (若循环占主导)。

Transformer / Attention-based

定义：Self-attention / cross-attention 块是主要的混合操作 (full/sparse/linear attention 均算)。
包含：encoder-only (BERT), decoder-only (GPT), encoder-decoder (T5), ViT, multimodal Transformers。

Graph Neural Network (GNN / Message Passing)

定义：计算定义在图上，以消息传递 / 邻域聚合为核心操作。
包含：GCN, GAT, GraphSAGE, MPNN, graph pooling readouts。(P.S.: MPNN 是很早的一篇用 AI 的方法做量子化学的工作)。
经验法则：如果边/邻域聚合在每一层都是基础 → GNN。

Generative Models (生成模型)

定义：当核心方法是通常作为一个独立家族讨论的生成机制时使用此标签，而不仅仅是“能生成文本的模型”。
包含：Diffusion / score-based models, GAN, VAE, Normalizing flows, Autoregressive generative models (当生成过程是重点时，如 PixelCNN；注意：GPT-Style LLMs 不归为此类，它们归为 Transformer)。

State-Space / SSM

定义：主要通过状态空间动力学 / selective scan / convolutional state-space kernels 进行序列建模，而非 attention 或循环。
包含：S4 family, Mamba-like selective state-space models, linear dynamical sequence backbones。

Other

定义：核心架构不符合上述任何一种。
示例：Kernel methods (SVM, GP), NeRF-style implicit fields 等。

Hybrid / Modular system (混合/模块化系统)

定义：两个或更多骨干家族在主计算图中同等重要，或系统由不同模块组成 (e.g., retriever + generator + reranker)。
示例：CNN+Transformer (Conv stem + large attention trunk), GNN+Transformer (两者都很深且核心), Mixture-of-Experts with heterogeneous experts, RAG pipelines。

Unknown / None

定义：信息不足，或无学习模型 (rules/heuristics only)。

4. Evaluation Criteria (评估标准)

尽量同时记录：在哪个数据集/设置下测 (split, zero-shot/few-shot/finetune)，以及是否有均值±方差/置信区间/重复次数。 核心聚焦：性能表现与计算效率（基于学术界硬指标）。

Performance Metrics (性能指标)

提取内容：论文报告的核心结果指标（可多条）。
示例：Accuracy, F1, AUC, mAP (检测), mIoU (分割), MAE/RMSE (回归), BLEU/ROUGE (文本), FID (图像), Win-rate (胜率)。
实验设置：必须记录是在哪个 Split (Val/Test) 以及哪种 Setting (Zero-shot / Few-shot / Fully-finetuned) 下测得。
统计严谨性：若文中有提供，提取 均值±方差 (Mean ± Std) 或 置信区间。

Efficiency Metrics (效率指标)

提取内容：模型运行成本与复杂度。
示例：

Latency/Throughput：推理延迟 (ms), 吞吐量 (tokens/sec, images/sec)。
Computational Cost：FLOPs (浮点运算次数), MACs。
Model Size：Parameter count (参数量), Disk size, Memory footprint (显存占用)。

硬件环境：记录测试所用的硬件 (e.g., A100, TPU v4)。

Part 2: High-Level Classification (标准化分类层)

任务：基于 Low-Level 的自然语言描述，将论文分类到以下标准化标签中（多选）。

1. Input Data Type (输入数据类型)

Text (Raw strings, tokens, code, embeddings, OCR-ed text)

Vision (Images, video, medical scans, pixel-based inputs)

Audio (Waveform, spectrograms, speech, music)

Multimodal (Joint input of >1 types, e.g., Image-Text pairs)

Other (Tabular, Graph, 3D Point Cloud, Trajectory, etc.)

2. Input Data Source (输入数据来源)

Public - Open Access

Public - Licensed

Private Data

Simulated / Synthetic Data

Other

Unknown / None

3. Input Sample Size (输入样本规模)

Small (<10k)

Medium (10k–1M)

Large (>1M)

Unknown / None

4. Output Type (输出类型)

A. Prediction (Fixed Form)

Binary Classification

Multi-class Classification

Multi-label Classification

Regression (Continuous value)

Ranking / Scoring

B. Probability (Uncertainty)

Probability Distribution / Intervals / Density

C. Generative (Open Content)

Text Generation

Vision Generation

Audio Generation

Multimodal Generation

Other Modality Generation (3D/Molecule)

D. Structured Output

Structured Prediction (Spans, BBoxes, JSON, Tables)

E. Representation

Embedding / Latent Representation

F. Action / Control

Actions / Decisions / Policy

G. Other / Unknown

Other / Unknown

5. Method - Learning Paradigm (方法 - 学习范式)

Training-free / No-learning (Prompting, RAG-no-train, Tool use)

Supervised Learning (Full, Weak, Remote)

Self-supervised Learning (Masking, Contrastive)

Unsupervised Learning (Clustering, Density estimation)

Reinforcement Learning (Online, Offline, RLHF/DPO)

Imitation / Behavior Cloning

Hybrid / Multi-paradigm (e.g., Pretrain -> Finetune -> RLHF)

Other / Unknown

6. Method - Model Architecture (方法 - 模型架构)

Feedforward / MLP (No conv/recurrence/attention)

CNN (Convolutional)

RNN (Recurrent, LSTM, GRU)

Transformer (Attention-based, BERT, GPT, ViT)

GNN (Graph / Message Passing)

Generative Models (Diffusion, GAN, VAE, Flow - NOT GPT)

State-Space / SSM (Mamba, S4)

Hybrid / Modular (Composition of distinct backbones)

Other / Unknown

📎 参考文章

none

💡

有关上述问题，欢迎您在底部评论区留言，一起交流~