一、目标
- 为每一个曾存在的人类生命分配持久、唯一、可解析的标识符;
- 支持有名者、无名者、部分识别者、群体代理的统一建模;
- 允许身份合并、拆分、修正而不破坏历史引用;
- 提供开放、分布式、语义化的数据交换能力;
- 服务于学术研究、文化遗产、伦理纪念、AI训练等多场景。
二、核心架构:三层模型
| 层级 | 功能 | 技术实现 |
|---|---|---|
| 1. 标识层(Identifier Layer) | 分配全局唯一ID | 基于 UUID v7 的 HTTPS IRI |
| 2. 证据层(Evidence Layer) | 存储原始记录(文献、墓葬、税册等) | RDF/JSON-LD + PROV-O |
| 3. 推断层(Inference Layer) | 构建“人”的代理实体,含不确定性元数据 | OWL 本体 + 概率属性 |
✅ 所有层级解耦,允许独立演化。
三、标识符规范(Identifier Specification)
格式:
https://humanid.global/id/H-{UUIDv7}
- UUID v7:时间有序、防冲突、可本地生成;
- 命名空间
humanid.global:由国际联盟(如 UNESCO + W3C 合作)托管,确保长期可解析; - 示例:
https://humanid.global/id/H-018c3b4d-5e6f-7890-a1b2-c3d4e5f67890
特性:
- 永久不变(即使身份被合并);
- 可通过 HTTP 内容协商返回 JSON-LD、Turtle、HTML 等格式;
- 支持重定向(301)用于身份归一。
四、数据模型(基于本体)
核心类(OWL Classes):
| 类 | 说明 |
|---|---|
h:HumanInstance | 代表一个可能的人类生命(无论是否具名) |
h:EvidenceRecord | 原始来源(如墓志铭、户口册、DNA样本) |
h:GroupProxy | 代表群体中推断出的个体(如“黑死病死者#37”) |
h:UncertainValue | 封装带置信度/区间的属性值 |
关键属性(Properties):
h:hasBirthTime a owl:ObjectProperty ;
rdfs:range h:TemporalInterval .
h:hasLocationEstimate a owl:ObjectProperty ;
rdfs:range h:SpatialRegion ;
ex:hasConfidence "xsd:float" .
h:derivedFrom a owl:ObjectProperty ;
rdfs:domain h:HumanInstance ;
rdfs:range h:EvidenceRecord .
h:sameAs a owl:AnnotationProperty ; # 注意:非标准 sameAs,保留历史
rdfs:comment "Indicates identity equivalence with provenance" .
不确定性表达示例(JSON-LD):
{
"@context": "https://humanid.global/context/v1",
"@id": "https://humanid.global/id/H-abc123",
"@type": "HumanInstance",
"birthTime": {
"@type": "TemporalInterval",
"startYear": -3000,
"endYear": -2800,
"confidence": 0.75
},
"location": {
"@id": "https://sws.geonames.org/694917/",
"label": "Mesopotamia",
"confidence": 0.6
},
"derivedFrom": [
{ "@id": "https://tdar.org/burial/uruk-iv-87" },
{ "@id": "https://ipums.org/census/BR1872_0012345" }
]
}
五、身份演化机制
1. 合并(Merge)
- 当发现两个 ID 实为同一人:
<H-abc123> h:mergedInto <H-def456> ;
prov:wasInvalidatedBy <event:merge-2025-001> .
- 旧 ID 保留,HTTP 请求 301 重定向到主 ID;
- 所有原始证据仍链接到旧 ID,确保可审计。
2. 拆分(Split)
- 当一个 ID 被证明代表多人:
<H-original> h:splitInto (<H-new1> <H-new2>) ;
prov:generatedAtTime "2025-12-01" .
3. 版本化元数据
- 使用 Memento 协议(RFC 7089)支持时间旅行查询:
GET /id/H-abc123
Accept-Datetime: Wed, 01 Jan 2020 00:00:00 GMT
六、数据来源整合策略
| 来源类型 | 映射方式 | 示例项目对接 |
|---|---|---|
| 考古遗存 | 每个墓葬/人骨 → HumanInstance + EvidenceRecord | tDAR, Open Context |
| 历史人口微数据 | 每条普查记录 → 匿名 HumanInstance | IPUMS, NAPP |
| 古典人物数据库 | 已有 URI → 通过 sameAs 链接 | SNAP:DRGN, Pleiades |
| 现代人口登记 | 用 ORCID/VIAF 作为别名 | Wikidata, national registries |
| 模拟人口 | 从 HMD 模型生成 GroupProxy 实例 | Human Mortality Database |
所有外部 ID 通过
h:externalIdentifier属性关联,不替代主 ID。
七、技术栈
| 组件 | 推荐方案 |
|---|---|
| 标识符注册 | 分布式 UUID v7 生成 + 中央解析服务(类似 DOI) |
| 存储 | 图数据库(如 Amazon Neptune, Stardog)或 RDF 三元组库 |
| API | SPARQL endpoint + RESTful JSON-LD API |
| 前端 | 可视化时间-空间-社会网络图(如 using Cytoscape.js + Leaflet) |
| 治理 | 由国际联盟(UNESCO/W3C/IISH)制定标准,社区贡献数据 |
八、伦理与隐私考量
- 史前至1900年前个体:默认公开;
- 1900年后个体:若可识别,需遵守 GDPR/本地隐私法;
- 原住民遗骸:需社区同意(遵循 CARE 原则,而非仅 FAIR);
- 匿名化原则:现代敏感数据使用加密代理 ID,不暴露真实身份。
九、路线图(Phase Plan)
| 阶段 | 目标 | 时间 |
|---|---|---|
| Phase 1 | 建立标准、本体、解析服务;接入 SNAP、IPUMS、tDAR | 2025–2026 |
| Phase 2 | 覆盖所有有文字记录的人类(约50亿) | 2027–2030 |
| Phase 3 | 整合考古与模拟数据,覆盖史前人群(剩余1120亿) | 2030–2035+ |
十、结语
“每一个生命都值得被记住——哪怕只以一个概率区间、一个碳14年代、一个陶罐旁的骨骸形式。”
本方案不是要“复活”所有人,而是构建一个尊重历史复杂性、包容不确定性、支持未来发现的数字记忆基础设施。它既是工具,也是对人类共同遗产的致敬。
附录:
- GitHub 仓库(草案):
github.com/humanid-global/spec - 本体草案:
https://humanid.global/ontology/v1.ttl - 示例数据集:
https://data.humanid.global/samples/