git.sesse.net Git - bcachefs-tools-debian/blob - libbcachefs/recovery.c

   1 // SPDX-License-Identifier: GPL-2.0
   2
   3 #include "bcachefs.h"
   4 #include "bkey_buf.h"
   5 #include "alloc_background.h"
   6 #include "btree_gc.h"
   7 #include "btree_update.h"
   8 #include "btree_update_interior.h"
   9 #include "btree_io.h"
  10 #include "buckets.h"
  11 #include "dirent.h"
  12 #include "ec.h"
  13 #include "error.h"
  14 #include "fs-common.h"
  15 #include "fsck.h"
  16 #include "journal_io.h"
  17 #include "journal_reclaim.h"
  18 #include "journal_seq_blacklist.h"
  19 #include "move.h"
  20 #include "quota.h"
  21 #include "recovery.h"
  22 #include "replicas.h"
  23 #include "subvolume.h"
  24 #include "super-io.h"
  25
  26 #include <linux/sort.h>
  27 #include <linux/stat.h>
  28
  29 #define QSTR(n) { { { .len = strlen(n) } }, .name = n }
  30
  31 /* for -o reconstruct_alloc: */
  32 static void drop_alloc_keys(struct journal_keys *keys)
  33 {
  34         size_t src, dst;
  35
  36         for (src = 0, dst = 0; src < keys->nr; src++)
  37                 if (keys->d[src].btree_id != BTREE_ID_alloc)
  38                         keys->d[dst++] = keys->d[src];
  39
  40         keys->nr = dst;
  41 }
  42
  43 /*
  44  * Btree node pointers have a field to stack a pointer to the in memory btree
  45  * node; we need to zero out this field when reading in btree nodes, or when
  46  * reading in keys from the journal:
  47  */
  48 static void zero_out_btree_mem_ptr(struct journal_keys *keys)
  49 {
  50         struct journal_key *i;
  51
  52         for (i = keys->d; i < keys->d + keys->nr; i++)
  53                 if (i->k->k.type == KEY_TYPE_btree_ptr_v2)
  54                         bkey_i_to_btree_ptr_v2(i->k)->v.mem_ptr = 0;
  55 }
  56
  57 /* iterate over keys read from the journal: */
  58
  59 static int __journal_key_cmp(enum btree_id      l_btree_id,
  60                              unsigned           l_level,
  61                              struct bpos        l_pos,
  62                              const struct journal_key *r)
  63 {
  64         return (cmp_int(l_btree_id,     r->btree_id) ?:
  65                 cmp_int(l_level,        r->level) ?:
  66                 bpos_cmp(l_pos, r->k->k.p));
  67 }
  68
  69 static int journal_key_cmp(const struct journal_key *l, const struct journal_key *r)
  70 {
  71         return __journal_key_cmp(l->btree_id, l->level, l->k->k.p, r);
  72 }
  73
  74 size_t bch2_journal_key_search(struct journal_keys *journal_keys,
  75                                enum btree_id id, unsigned level,
  76                                struct bpos pos)
  77 {
  78         size_t l = 0, r = journal_keys->nr, m;
  79
  80         while (l < r) {
  81                 m = l + ((r - l) >> 1);
  82                 if (__journal_key_cmp(id, level, pos, &journal_keys->d[m]) > 0)
  83                         l = m + 1;
  84                 else
  85                         r = m;
  86         }
  87
  88         BUG_ON(l < journal_keys->nr &&
  89                __journal_key_cmp(id, level, pos, &journal_keys->d[l]) > 0);
  90
  91         BUG_ON(l &&
  92                __journal_key_cmp(id, level, pos, &journal_keys->d[l - 1]) <= 0);
  93
  94         return l;
  95 }
  96
  97 struct bkey_i *bch2_journal_keys_peek(struct bch_fs *c, enum btree_id btree_id,
  98                                       unsigned level, struct bpos pos)
  99 {
 100         struct journal_keys *keys = &c->journal_keys;
 101         struct journal_key *end = keys->d + keys->nr;
 102         struct journal_key *k = keys->d +
 103                 bch2_journal_key_search(keys, btree_id, level, pos);
 104
 105         while (k < end && k->overwritten)
 106                 k++;
 107
 108         if (k < end &&
 109             k->btree_id == btree_id &&
 110             k->level    == level)
 111                 return k->k;
 112         return NULL;
 113 }
 114
 115 static void journal_iter_fix(struct bch_fs *c, struct journal_iter *iter, unsigned idx)
 116 {
 117         struct bkey_i *n = iter->keys->d[idx].k;
 118         struct btree_and_journal_iter *biter =
 119                 container_of(iter, struct btree_and_journal_iter, journal);
 120
 121         if (iter->idx > idx ||
 122             (iter->idx == idx &&
 123              biter->last &&
 124              bpos_cmp(n->k.p, biter->unpacked.p) <= 0))
 125                 iter->idx++;
 126 }
 127
 128 int bch2_journal_key_insert_take(struct bch_fs *c, enum btree_id id,
 129                                  unsigned level, struct bkey_i *k)
 130 {
 131         struct journal_key n = {
 132                 .btree_id       = id,
 133                 .level          = level,
 134                 .k              = k,
 135                 .allocated      = true,
 136                 /*
 137                  * Ensure these keys are done last by journal replay, to unblock
 138                  * journal reclaim:
 139                  */
 140                 .journal_seq    = U32_MAX,
 141         };
 142         struct journal_keys *keys = &c->journal_keys;
 143         struct journal_iter *iter;
 144         size_t idx = bch2_journal_key_search(keys, id, level, k->k.p);
 145
 146         BUG_ON(test_bit(BCH_FS_RW, &c->flags));
 147
 148         if (idx < keys->nr &&
 149             journal_key_cmp(&n, &keys->d[idx]) == 0) {
 150                 if (keys->d[idx].allocated)
 151                         kfree(keys->d[idx].k);
 152                 keys->d[idx] = n;
 153                 return 0;
 154         }
 155
 156         if (keys->nr == keys->size) {
 157                 struct journal_keys new_keys = {
 158                         .nr                     = keys->nr,
 159                         .size                   = keys->size * 2,
 160                         .journal_seq_base       = keys->journal_seq_base,
 161                 };
 162
 163                 new_keys.d = kvmalloc(sizeof(new_keys.d[0]) * new_keys.size, GFP_KERNEL);
 164                 if (!new_keys.d) {
 165                         bch_err(c, "%s: error allocating new key array (size %zu)",
 166                                 __func__, new_keys.size);
 167                         return -ENOMEM;
 168                 }
 169
 170                 memcpy(new_keys.d, keys->d, sizeof(keys->d[0]) * keys->nr);
 171                 kvfree(keys->d);
 172                 *keys = new_keys;
 173         }
 174
 175         array_insert_item(keys->d, keys->nr, idx, n);
 176
 177         list_for_each_entry(iter, &c->journal_iters, list)
 178                 journal_iter_fix(c, iter, idx);
 179
 180         return 0;
 181 }
 182
 183 /*
 184  * Can only be used from the recovery thread while we're still RO - can't be
 185  * used once we've got RW, as journal_keys is at that point used by multiple
 186  * threads:
 187  */
 188 int bch2_journal_key_insert(struct bch_fs *c, enum btree_id id,
 189                             unsigned level, struct bkey_i *k)
 190 {
 191         struct bkey_i *n;
 192         int ret;
 193
 194         n = kmalloc(bkey_bytes(&k->k), GFP_KERNEL);
 195         if (!n)
 196                 return -ENOMEM;
 197
 198         bkey_copy(n, k);
 199         ret = bch2_journal_key_insert_take(c, id, level, n);
 200         if (ret)
 201                 kfree(n);
 202         return ret;
 203 }
 204
 205 int bch2_journal_key_delete(struct bch_fs *c, enum btree_id id,
 206                             unsigned level, struct bpos pos)
 207 {
 208         struct bkey_i whiteout;
 209
 210         bkey_init(&whiteout.k);
 211         whiteout.k.p = pos;
 212
 213         return bch2_journal_key_insert(c, id, level, &whiteout);
 214 }
 215
 216 void bch2_journal_key_overwritten(struct bch_fs *c, enum btree_id btree,
 217                                   unsigned level, struct bpos pos)
 218 {
 219         struct journal_keys *keys = &c->journal_keys;
 220         size_t idx = bch2_journal_key_search(keys, btree, level, pos);
 221
 222         if (idx < keys->nr &&
 223             keys->d[idx].btree_id       == btree &&
 224             keys->d[idx].level          == level &&
 225             !bpos_cmp(keys->d[idx].k->k.p, pos))
 226                 keys->d[idx].overwritten = true;
 227 }
 228
 229 static struct bkey_i *bch2_journal_iter_peek(struct journal_iter *iter)
 230 {
 231         struct journal_key *k = iter->keys->d + iter->idx;
 232
 233         while (k < iter->keys->d + iter->keys->nr &&
 234                k->btree_id      == iter->btree_id &&
 235                k->level         == iter->level) {
 236                 if (!k->overwritten)
 237                         return k->k;
 238
 239                 iter->idx++;
 240                 k = iter->keys->d + iter->idx;
 241         }
 242
 243         return NULL;
 244 }
 245
 246 static void bch2_journal_iter_advance(struct journal_iter *iter)
 247 {
 248         if (iter->idx < iter->keys->nr)
 249                 iter->idx++;
 250 }
 251
 252 static void bch2_journal_iter_exit(struct journal_iter *iter)
 253 {
 254         list_del(&iter->list);
 255 }
 256
 257 static void bch2_journal_iter_init(struct bch_fs *c,
 258                                    struct journal_iter *iter,
 259                                    enum btree_id id, unsigned level,
 260                                    struct bpos pos)
 261 {
 262         iter->btree_id  = id;
 263         iter->level     = level;
 264         iter->keys      = &c->journal_keys;
 265         iter->idx       = bch2_journal_key_search(&c->journal_keys, id, level, pos);
 266 }
 267
 268 static struct bkey_s_c bch2_journal_iter_peek_btree(struct btree_and_journal_iter *iter)
 269 {
 270         return bch2_btree_node_iter_peek_unpack(&iter->node_iter,
 271                                                 iter->b, &iter->unpacked);
 272 }
 273
 274 static void bch2_journal_iter_advance_btree(struct btree_and_journal_iter *iter)
 275 {
 276         bch2_btree_node_iter_advance(&iter->node_iter, iter->b);
 277 }
 278
 279 void bch2_btree_and_journal_iter_advance(struct btree_and_journal_iter *iter)
 280 {
 281         switch (iter->last) {
 282         case none:
 283                 break;
 284         case btree:
 285                 bch2_journal_iter_advance_btree(iter);
 286                 break;
 287         case journal:
 288                 bch2_journal_iter_advance(&iter->journal);
 289                 break;
 290         }
 291
 292         iter->last = none;
 293 }
 294
 295 struct bkey_s_c bch2_btree_and_journal_iter_peek(struct btree_and_journal_iter *iter)
 296 {
 297         struct bkey_s_c ret;
 298
 299         while (1) {
 300                 struct bkey_s_c btree_k         =
 301                         bch2_journal_iter_peek_btree(iter);
 302                 struct bkey_s_c journal_k       =
 303                         bkey_i_to_s_c(bch2_journal_iter_peek(&iter->journal));
 304
 305                 if (btree_k.k && journal_k.k) {
 306                         int cmp = bpos_cmp(btree_k.k->p, journal_k.k->p);
 307
 308                         if (!cmp)
 309                                 bch2_journal_iter_advance_btree(iter);
 310
 311                         iter->last = cmp < 0 ? btree : journal;
 312                 } else if (btree_k.k) {
 313                         iter->last = btree;
 314                 } else if (journal_k.k) {
 315                         iter->last = journal;
 316                 } else {
 317                         iter->last = none;
 318                         return bkey_s_c_null;
 319                 }
 320
 321                 ret = iter->last == journal ? journal_k : btree_k;
 322
 323                 if (iter->b &&
 324                     bpos_cmp(ret.k->p, iter->b->data->max_key) > 0) {
 325                         iter->journal.idx = iter->journal.keys->nr;
 326                         iter->last = none;
 327                         return bkey_s_c_null;
 328                 }
 329
 330                 if (!bkey_deleted(ret.k))
 331                         break;
 332
 333                 bch2_btree_and_journal_iter_advance(iter);
 334         }
 335
 336         return ret;
 337 }
 338
 339 struct bkey_s_c bch2_btree_and_journal_iter_next(struct btree_and_journal_iter *iter)
 340 {
 341         bch2_btree_and_journal_iter_advance(iter);
 342
 343         return bch2_btree_and_journal_iter_peek(iter);
 344 }
 345
 346 void bch2_btree_and_journal_iter_exit(struct btree_and_journal_iter *iter)
 347 {
 348         bch2_journal_iter_exit(&iter->journal);
 349 }
 350
 351 void __bch2_btree_and_journal_iter_init_node_iter(struct btree_and_journal_iter *iter,
 352                                                   struct bch_fs *c,
 353                                                   struct btree *b,
 354                                                   struct btree_node_iter node_iter,
 355                                                   struct bpos pos)
 356 {
 357         memset(iter, 0, sizeof(*iter));
 358
 359         iter->b = b;
 360         iter->node_iter = node_iter;
 361         bch2_journal_iter_init(c, &iter->journal, b->c.btree_id, b->c.level, pos);
 362         INIT_LIST_HEAD(&iter->journal.list);
 363 }
 364
 365 /*
 366  * this version is used by btree_gc before filesystem has gone RW and
 367  * multithreaded, so uses the journal_iters list:
 368  */
 369 void bch2_btree_and_journal_iter_init_node_iter(struct btree_and_journal_iter *iter,
 370                                                 struct bch_fs *c,
 371                                                 struct btree *b)
 372 {
 373         struct btree_node_iter node_iter;
 374
 375         bch2_btree_node_iter_init_from_start(&node_iter, b);
 376         __bch2_btree_and_journal_iter_init_node_iter(iter, c, b, node_iter, b->data->min_key);
 377         list_add(&iter->journal.list, &c->journal_iters);
 378 }
 379
 380 /* sort and dedup all keys in the journal: */
 381
 382 void bch2_journal_entries_free(struct list_head *list)
 383 {
 384
 385         while (!list_empty(list)) {
 386                 struct journal_replay *i =
 387                         list_first_entry(list, struct journal_replay, list);
 388                 list_del(&i->list);
 389                 kvpfree(i, offsetof(struct journal_replay, j) +
 390                         vstruct_bytes(&i->j));
 391         }
 392 }
 393
 394 /*
 395  * When keys compare equal, oldest compares first:
 396  */
 397 static int journal_sort_key_cmp(const void *_l, const void *_r)
 398 {
 399         const struct journal_key *l = _l;
 400         const struct journal_key *r = _r;
 401
 402         return  journal_key_cmp(l, r) ?:
 403                 cmp_int(l->journal_seq, r->journal_seq) ?:
 404                 cmp_int(l->journal_offset, r->journal_offset);
 405 }
 406
 407 void bch2_journal_keys_free(struct journal_keys *keys)
 408 {
 409         struct journal_key *i;
 410
 411         for (i = keys->d; i < keys->d + keys->nr; i++)
 412                 if (i->allocated)
 413                         kfree(i->k);
 414
 415         kvfree(keys->d);
 416         keys->d = NULL;
 417         keys->nr = 0;
 418 }
 419
 420 static struct journal_keys journal_keys_sort(struct list_head *journal_entries)
 421 {
 422         struct journal_replay *i;
 423         struct jset_entry *entry;
 424         struct bkey_i *k, *_n;
 425         struct journal_keys keys = { NULL };
 426         struct journal_key *src, *dst;
 427         size_t nr_keys = 0;
 428
 429         if (list_empty(journal_entries))
 430                 return keys;
 431
 432         list_for_each_entry(i, journal_entries, list) {
 433                 if (i->ignore)
 434                         continue;
 435
 436                 if (!keys.journal_seq_base)
 437                         keys.journal_seq_base = le64_to_cpu(i->j.seq);
 438
 439                 for_each_jset_key(k, _n, entry, &i->j)
 440                         nr_keys++;
 441         }
 442
 443         keys.size = roundup_pow_of_two(nr_keys);
 444
 445         keys.d = kvmalloc(sizeof(keys.d[0]) * keys.size, GFP_KERNEL);
 446         if (!keys.d)
 447                 goto err;
 448
 449         list_for_each_entry(i, journal_entries, list) {
 450                 if (i->ignore)
 451                         continue;
 452
 453                 BUG_ON(le64_to_cpu(i->j.seq) - keys.journal_seq_base > U32_MAX);
 454
 455                 for_each_jset_key(k, _n, entry, &i->j)
 456                         keys.d[keys.nr++] = (struct journal_key) {
 457                                 .btree_id       = entry->btree_id,
 458                                 .level          = entry->level,
 459                                 .k              = k,
 460                                 .journal_seq    = le64_to_cpu(i->j.seq) -
 461                                         keys.journal_seq_base,
 462                                 .journal_offset = k->_data - i->j._data,
 463                         };
 464         }
 465
 466         sort(keys.d, keys.nr, sizeof(keys.d[0]), journal_sort_key_cmp, NULL);
 467
 468         src = dst = keys.d;
 469         while (src < keys.d + keys.nr) {
 470                 while (src + 1 < keys.d + keys.nr &&
 471                        src[0].btree_id  == src[1].btree_id &&
 472                        src[0].level     == src[1].level &&
 473                        !bpos_cmp(src[0].k->k.p, src[1].k->k.p))
 474                         src++;
 475
 476                 *dst++ = *src++;
 477         }
 478
 479         keys.nr = dst - keys.d;
 480 err:
 481         return keys;
 482 }
 483
 484 /* journal replay: */
 485
 486 static void replay_now_at(struct journal *j, u64 seq)
 487 {
 488         BUG_ON(seq < j->replay_journal_seq);
 489         BUG_ON(seq > j->replay_journal_seq_end);
 490
 491         while (j->replay_journal_seq < seq)
 492                 bch2_journal_pin_put(j, j->replay_journal_seq++);
 493 }
 494
 495 static int bch2_journal_replay_key(struct btree_trans *trans,
 496                                    struct journal_key *k)
 497 {
 498         struct btree_iter iter;
 499         unsigned iter_flags =
 500                 BTREE_ITER_INTENT|
 501                 BTREE_ITER_NOT_EXTENTS;
 502         int ret;
 503
 504         if (!k->level && k->btree_id == BTREE_ID_alloc)
 505                 iter_flags |= BTREE_ITER_CACHED;
 506
 507         bch2_trans_node_iter_init(trans, &iter, k->btree_id, k->k->k.p,
 508                                   BTREE_MAX_DEPTH, k->level,
 509                                   iter_flags);
 510         ret = bch2_btree_iter_traverse(&iter);
 511         if (ret)
 512                 goto out;
 513
 514         /* Must be checked with btree locked: */
 515         if (k->overwritten)
 516                 goto out;
 517
 518         ret = bch2_trans_update(trans, &iter, k->k, BTREE_TRIGGER_NORUN);
 519 out:
 520         bch2_trans_iter_exit(trans, &iter);
 521         return ret;
 522 }
 523
 524 static int journal_sort_seq_cmp(const void *_l, const void *_r)
 525 {
 526         const struct journal_key *l = *((const struct journal_key **)_l);
 527         const struct journal_key *r = *((const struct journal_key **)_r);
 528
 529         return cmp_int(l->journal_seq, r->journal_seq);
 530 }
 531
 532 static int bch2_journal_replay(struct bch_fs *c)
 533 {
 534         struct journal_keys *keys = &c->journal_keys;
 535         struct journal_key **keys_sorted, *k;
 536         struct journal *j = &c->journal;
 537         size_t i;
 538         int ret;
 539
 540         keys_sorted = kvmalloc_array(sizeof(*keys_sorted), keys->nr, GFP_KERNEL);
 541         if (!keys_sorted)
 542                 return -ENOMEM;
 543
 544         for (i = 0; i < keys->nr; i++)
 545                 keys_sorted[i] = &keys->d[i];
 546
 547         sort(keys_sorted, keys->nr,
 548              sizeof(keys_sorted[0]),
 549              journal_sort_seq_cmp, NULL);
 550
 551         if (keys->nr)
 552                 replay_now_at(j, keys->journal_seq_base);
 553
 554         for (i = 0; i < keys->nr; i++) {
 555                 k = keys_sorted[i];
 556
 557                 cond_resched();
 558
 559                 if (!k->allocated)
 560                         replay_now_at(j, keys->journal_seq_base + k->journal_seq);
 561
 562                 ret = bch2_trans_do(c, NULL, NULL,
 563                                     BTREE_INSERT_LAZY_RW|
 564                                     BTREE_INSERT_NOFAIL|
 565                                     BTREE_INSERT_JOURNAL_RESERVED|
 566                                     (!k->allocated ? BTREE_INSERT_JOURNAL_REPLAY : 0),
 567                              bch2_journal_replay_key(&trans, k));
 568                 if (ret) {
 569                         bch_err(c, "journal replay: error %d while replaying key at btree %s level %u",
 570                                 ret, bch2_btree_ids[k->btree_id], k->level);
 571                         goto err;
 572                 }
 573         }
 574
 575         replay_now_at(j, j->replay_journal_seq_end);
 576         j->replay_journal_seq = 0;
 577
 578         bch2_journal_set_replay_done(j);
 579         bch2_journal_flush_all_pins(j);
 580         ret = bch2_journal_error(j);
 581 err:
 582         kvfree(keys_sorted);
 583         return ret;
 584 }
 585
 586 /* journal replay early: */
 587
 588 static int journal_replay_entry_early(struct bch_fs *c,
 589                                       struct jset_entry *entry)
 590 {
 591         int ret = 0;
 592
 593         switch (entry->type) {
 594         case BCH_JSET_ENTRY_btree_root: {
 595                 struct btree_root *r;
 596
 597                 if (entry->btree_id >= BTREE_ID_NR) {
 598                         bch_err(c, "filesystem has unknown btree type %u",
 599                                 entry->btree_id);
 600                         return -EINVAL;
 601                 }
 602
 603                 r = &c->btree_roots[entry->btree_id];
 604
 605                 if (entry->u64s) {
 606                         r->level = entry->level;
 607                         bkey_copy(&r->key, &entry->start[0]);
 608                         r->error = 0;
 609                 } else {
 610                         r->error = -EIO;
 611                 }
 612                 r->alive = true;
 613                 break;
 614         }
 615         case BCH_JSET_ENTRY_usage: {
 616                 struct jset_entry_usage *u =
 617                         container_of(entry, struct jset_entry_usage, entry);
 618
 619                 switch (entry->btree_id) {
 620                 case BCH_FS_USAGE_reserved:
 621                         if (entry->level < BCH_REPLICAS_MAX)
 622                                 c->usage_base->persistent_reserved[entry->level] =
 623                                         le64_to_cpu(u->v);
 624                         break;
 625                 case BCH_FS_USAGE_inodes:
 626                         c->usage_base->nr_inodes = le64_to_cpu(u->v);
 627                         break;
 628                 case BCH_FS_USAGE_key_version:
 629                         atomic64_set(&c->key_version,
 630                                      le64_to_cpu(u->v));
 631                         break;
 632                 }
 633
 634                 break;
 635         }
 636         case BCH_JSET_ENTRY_data_usage: {
 637                 struct jset_entry_data_usage *u =
 638                         container_of(entry, struct jset_entry_data_usage, entry);
 639
 640                 ret = bch2_replicas_set_usage(c, &u->r,
 641                                               le64_to_cpu(u->v));
 642                 break;
 643         }
 644         case BCH_JSET_ENTRY_dev_usage: {
 645                 struct jset_entry_dev_usage *u =
 646                         container_of(entry, struct jset_entry_dev_usage, entry);
 647                 struct bch_dev *ca = bch_dev_bkey_exists(c, le32_to_cpu(u->dev));
 648                 unsigned i, nr_types = jset_entry_dev_usage_nr_types(u);
 649
 650                 ca->usage_base->buckets_ec              = le64_to_cpu(u->buckets_ec);
 651                 ca->usage_base->buckets_unavailable     = le64_to_cpu(u->buckets_unavailable);
 652
 653                 for (i = 0; i < min_t(unsigned, nr_types, BCH_DATA_NR); i++) {
 654                         ca->usage_base->d[i].buckets    = le64_to_cpu(u->d[i].buckets);
 655                         ca->usage_base->d[i].sectors    = le64_to_cpu(u->d[i].sectors);
 656                         ca->usage_base->d[i].fragmented = le64_to_cpu(u->d[i].fragmented);
 657                 }
 658
 659                 break;
 660         }
 661         case BCH_JSET_ENTRY_blacklist: {
 662                 struct jset_entry_blacklist *bl_entry =
 663                         container_of(entry, struct jset_entry_blacklist, entry);
 664
 665                 ret = bch2_journal_seq_blacklist_add(c,
 666                                 le64_to_cpu(bl_entry->seq),
 667                                 le64_to_cpu(bl_entry->seq) + 1);
 668                 break;
 669         }
 670         case BCH_JSET_ENTRY_blacklist_v2: {
 671                 struct jset_entry_blacklist_v2 *bl_entry =
 672                         container_of(entry, struct jset_entry_blacklist_v2, entry);
 673
 674                 ret = bch2_journal_seq_blacklist_add(c,
 675                                 le64_to_cpu(bl_entry->start),
 676                                 le64_to_cpu(bl_entry->end) + 1);
 677                 break;
 678         }
 679         case BCH_JSET_ENTRY_clock: {
 680                 struct jset_entry_clock *clock =
 681                         container_of(entry, struct jset_entry_clock, entry);
 682
 683                 atomic64_set(&c->io_clock[clock->rw].now, le64_to_cpu(clock->time));
 684         }
 685         }
 686
 687         return ret;
 688 }
 689
 690 static int journal_replay_early(struct bch_fs *c,
 691                                 struct bch_sb_field_clean *clean,
 692                                 struct list_head *journal)
 693 {
 694         struct journal_replay *i;
 695         struct jset_entry *entry;
 696         int ret;
 697
 698         if (clean) {
 699                 for (entry = clean->start;
 700                      entry != vstruct_end(&clean->field);
 701                      entry = vstruct_next(entry)) {
 702                         ret = journal_replay_entry_early(c, entry);
 703                         if (ret)
 704                                 return ret;
 705                 }
 706         } else {
 707                 list_for_each_entry(i, journal, list) {
 708                         if (i->ignore)
 709                                 continue;
 710
 711                         vstruct_for_each(&i->j, entry) {
 712                                 ret = journal_replay_entry_early(c, entry);
 713                                 if (ret)
 714                                         return ret;
 715                         }
 716                 }
 717         }
 718
 719         bch2_fs_usage_initialize(c);
 720
 721         return 0;
 722 }
 723
 724 /* sb clean section: */
 725
 726 static struct bkey_i *btree_root_find(struct bch_fs *c,
 727                                       struct bch_sb_field_clean *clean,
 728                                       struct jset *j,
 729                                       enum btree_id id, unsigned *level)
 730 {
 731         struct bkey_i *k;
 732         struct jset_entry *entry, *start, *end;
 733
 734         if (clean) {
 735                 start = clean->start;
 736                 end = vstruct_end(&clean->field);
 737         } else {
 738                 start = j->start;
 739                 end = vstruct_last(j);
 740         }
 741
 742         for (entry = start; entry < end; entry = vstruct_next(entry))
 743                 if (entry->type == BCH_JSET_ENTRY_btree_root &&
 744                     entry->btree_id == id)
 745                         goto found;
 746
 747         return NULL;
 748 found:
 749         if (!entry->u64s)
 750                 return ERR_PTR(-EINVAL);
 751
 752         k = entry->start;
 753         *level = entry->level;
 754         return k;
 755 }
 756
 757 static int verify_superblock_clean(struct bch_fs *c,
 758                                    struct bch_sb_field_clean **cleanp,
 759                                    struct jset *j)
 760 {
 761         unsigned i;
 762         struct bch_sb_field_clean *clean = *cleanp;
 763         struct printbuf buf1 = PRINTBUF;
 764         struct printbuf buf2 = PRINTBUF;
 765         int ret = 0;
 766
 767         if (mustfix_fsck_err_on(j->seq != clean->journal_seq, c,
 768                         "superblock journal seq (%llu) doesn't match journal (%llu) after clean shutdown",
 769                         le64_to_cpu(clean->journal_seq),
 770                         le64_to_cpu(j->seq))) {
 771                 kfree(clean);
 772                 *cleanp = NULL;
 773                 return 0;
 774         }
 775
 776         for (i = 0; i < BTREE_ID_NR; i++) {
 777                 struct bkey_i *k1, *k2;
 778                 unsigned l1 = 0, l2 = 0;
 779
 780                 k1 = btree_root_find(c, clean, NULL, i, &l1);
 781                 k2 = btree_root_find(c, NULL, j, i, &l2);
 782
 783                 if (!k1 && !k2)
 784                         continue;
 785
 786                 printbuf_reset(&buf1);
 787                 printbuf_reset(&buf2);
 788
 789                 if (k1)
 790                         bch2_bkey_val_to_text(&buf1, c, bkey_i_to_s_c(k1));
 791                 else
 792                         pr_buf(&buf1, "(none)");
 793
 794                 if (k2)
 795                         bch2_bkey_val_to_text(&buf2, c, bkey_i_to_s_c(k2));
 796                 else
 797                         pr_buf(&buf2, "(none)");
 798
 799                 mustfix_fsck_err_on(!k1 || !k2 ||
 800                                     IS_ERR(k1) ||
 801                                     IS_ERR(k2) ||
 802                                     k1->k.u64s != k2->k.u64s ||
 803                                     memcmp(k1, k2, bkey_bytes(k1)) ||
 804                                     l1 != l2, c,
 805                         "superblock btree root %u doesn't match journal after clean shutdown\n"
 806                         "sb:      l=%u %s\n"
 807                         "journal: l=%u %s\n", i,
 808                         l1, buf1.buf,
 809                         l2, buf2.buf);
 810         }
 811 fsck_err:
 812         printbuf_exit(&buf2);
 813         printbuf_exit(&buf1);
 814         return ret;
 815 }
 816
 817 static struct bch_sb_field_clean *read_superblock_clean(struct bch_fs *c)
 818 {
 819         struct bch_sb_field_clean *clean, *sb_clean;
 820         int ret;
 821
 822         mutex_lock(&c->sb_lock);
 823         sb_clean = bch2_sb_get_clean(c->disk_sb.sb);
 824
 825         if (fsck_err_on(!sb_clean, c,
 826                         "superblock marked clean but clean section not present")) {
 827                 SET_BCH_SB_CLEAN(c->disk_sb.sb, false);
 828                 c->sb.clean = false;
 829                 mutex_unlock(&c->sb_lock);
 830                 return NULL;
 831         }
 832
 833         clean = kmemdup(sb_clean, vstruct_bytes(&sb_clean->field),
 834                         GFP_KERNEL);
 835         if (!clean) {
 836                 mutex_unlock(&c->sb_lock);
 837                 return ERR_PTR(-ENOMEM);
 838         }
 839
 840         ret = bch2_sb_clean_validate_late(c, clean, READ);
 841         if (ret) {
 842                 mutex_unlock(&c->sb_lock);
 843                 return ERR_PTR(ret);
 844         }
 845
 846         mutex_unlock(&c->sb_lock);
 847
 848         return clean;
 849 fsck_err:
 850         mutex_unlock(&c->sb_lock);
 851         return ERR_PTR(ret);
 852 }
 853
 854 static int read_btree_roots(struct bch_fs *c)
 855 {
 856         unsigned i;
 857         int ret = 0;
 858
 859         for (i = 0; i < BTREE_ID_NR; i++) {
 860                 struct btree_root *r = &c->btree_roots[i];
 861
 862                 if (!r->alive)
 863                         continue;
 864
 865                 if (i == BTREE_ID_alloc &&
 866                     c->opts.reconstruct_alloc) {
 867                         c->sb.compat &= ~(1ULL << BCH_COMPAT_alloc_info);
 868                         continue;
 869                 }
 870
 871                 if (r->error) {
 872                         __fsck_err(c, i == BTREE_ID_alloc
 873                                    ? FSCK_CAN_IGNORE : 0,
 874                                    "invalid btree root %s",
 875                                    bch2_btree_ids[i]);
 876                         if (i == BTREE_ID_alloc)
 877                                 c->sb.compat &= ~(1ULL << BCH_COMPAT_alloc_info);
 878                 }
 879
 880                 ret = bch2_btree_root_read(c, i, &r->key, r->level);
 881                 if (ret) {
 882                         __fsck_err(c, i == BTREE_ID_alloc
 883                                    ? FSCK_CAN_IGNORE : 0,
 884                                    "error reading btree root %s",
 885                                    bch2_btree_ids[i]);
 886                         if (i == BTREE_ID_alloc)
 887                                 c->sb.compat &= ~(1ULL << BCH_COMPAT_alloc_info);
 888                 }
 889         }
 890
 891         for (i = 0; i < BTREE_ID_NR; i++)
 892                 if (!c->btree_roots[i].b)
 893                         bch2_btree_root_alloc(c, i);
 894 fsck_err:
 895         return ret;
 896 }
 897
 898 static int bch2_fs_initialize_subvolumes(struct bch_fs *c)
 899 {
 900         struct bkey_i_snapshot  root_snapshot;
 901         struct bkey_i_subvolume root_volume;
 902         int ret;
 903
 904         bkey_snapshot_init(&root_snapshot.k_i);
 905         root_snapshot.k.p.offset = U32_MAX;
 906         root_snapshot.v.flags   = 0;
 907         root_snapshot.v.parent  = 0;
 908         root_snapshot.v.subvol  = BCACHEFS_ROOT_SUBVOL;
 909         root_snapshot.v.pad     = 0;
 910         SET_BCH_SNAPSHOT_SUBVOL(&root_snapshot.v, true);
 911
 912         ret = bch2_btree_insert(c, BTREE_ID_snapshots,
 913                                 &root_snapshot.k_i,
 914                                 NULL, NULL, 0);
 915         if (ret)
 916                 return ret;
 917
 918
 919         bkey_subvolume_init(&root_volume.k_i);
 920         root_volume.k.p.offset = BCACHEFS_ROOT_SUBVOL;
 921         root_volume.v.flags     = 0;
 922         root_volume.v.snapshot  = cpu_to_le32(U32_MAX);
 923         root_volume.v.inode     = cpu_to_le64(BCACHEFS_ROOT_INO);
 924
 925         ret = bch2_btree_insert(c, BTREE_ID_subvolumes,
 926                                 &root_volume.k_i,
 927                                 NULL, NULL, 0);
 928         if (ret)
 929                 return ret;
 930
 931         return 0;
 932 }
 933
 934 static int bch2_fs_upgrade_for_subvolumes(struct btree_trans *trans)
 935 {
 936         struct btree_iter iter;
 937         struct bkey_s_c k;
 938         struct bch_inode_unpacked inode;
 939         int ret;
 940
 941         bch2_trans_iter_init(trans, &iter, BTREE_ID_inodes,
 942                              SPOS(0, BCACHEFS_ROOT_INO, U32_MAX), 0);
 943         k = bch2_btree_iter_peek_slot(&iter);
 944         ret = bkey_err(k);
 945         if (ret)
 946                 goto err;
 947
 948         if (!bkey_is_inode(k.k)) {
 949                 bch_err(trans->c, "root inode not found");
 950                 ret = -ENOENT;
 951                 goto err;
 952         }
 953
 954         ret = bch2_inode_unpack(k, &inode);
 955         BUG_ON(ret);
 956
 957         inode.bi_subvol = BCACHEFS_ROOT_SUBVOL;
 958
 959         ret = bch2_inode_write(trans, &iter, &inode);
 960 err:
 961         bch2_trans_iter_exit(trans, &iter);
 962         return ret;
 963 }
 964
 965 int bch2_fs_recovery(struct bch_fs *c)
 966 {
 967         const char *err = "cannot allocate memory";
 968         struct bch_sb_field_clean *clean = NULL;
 969         struct jset *last_journal_entry = NULL;
 970         u64 blacklist_seq, journal_seq;
 971         bool write_sb = false;
 972         int ret = 0;
 973
 974         if (c->sb.clean)
 975                 clean = read_superblock_clean(c);
 976         ret = PTR_ERR_OR_ZERO(clean);
 977         if (ret)
 978                 goto err;
 979
 980         if (c->sb.clean)
 981                 bch_info(c, "recovering from clean shutdown, journal seq %llu",
 982                          le64_to_cpu(clean->journal_seq));
 983         else
 984                 bch_info(c, "recovering from unclean shutdown");
 985
 986         if (!(c->sb.features & (1ULL << BCH_FEATURE_new_extent_overwrite))) {
 987                 bch_err(c, "feature new_extent_overwrite not set, filesystem no longer supported");
 988                 ret = -EINVAL;
 989                 goto err;
 990         }
 991
 992         if (!c->sb.clean &&
 993             !(c->sb.features & (1ULL << BCH_FEATURE_extents_above_btree_updates))) {
 994                 bch_err(c, "filesystem needs recovery from older version; run fsck from older bcachefs-tools to fix");
 995                 ret = -EINVAL;
 996                 goto err;
 997         }
 998
 999         if (!(c->sb.compat & (1ULL << BCH_COMPAT_bformat_overflow_done))) {
1000                 bch_err(c, "filesystem may have incompatible bkey formats; run fsck from the compat branch to fix");
1001                 ret = -EINVAL;
1002                 goto err;
1003         }
1004
1005         if (!(c->sb.features & (1ULL << BCH_FEATURE_alloc_v2))) {
1006                 bch_info(c, "alloc_v2 feature bit not set, fsck required");
1007                 c->opts.fsck = true;
1008                 c->opts.fix_errors = FSCK_OPT_YES;
1009         }
1010
1011         if (!c->replicas.entries ||
1012             c->opts.rebuild_replicas) {
1013                 bch_info(c, "building replicas info");
1014                 set_bit(BCH_FS_REBUILD_REPLICAS, &c->flags);
1015         }
1016
1017         if (!c->opts.nochanges) {
1018                 if (c->sb.version < bcachefs_metadata_version_inode_backpointers) {
1019                         bch_info(c, "version prior to inode backpointers, upgrade and fsck required");
1020                         c->opts.version_upgrade = true;
1021                         c->opts.fsck            = true;
1022                         c->opts.fix_errors      = FSCK_OPT_YES;
1023                 } else if (c->sb.version < bcachefs_metadata_version_subvol_dirent) {
1024                         bch_info(c, "filesystem version is prior to subvol_dirent - upgrading");
1025                         c->opts.version_upgrade = true;
1026                         c->opts.fsck            = true;
1027                 } else if (c->sb.version < bcachefs_metadata_version_inode_v2) {
1028                         bch_info(c, "filesystem version is prior to inode_v2 - upgrading");
1029                         c->opts.version_upgrade = true;
1030                 }
1031         }
1032
1033         ret = bch2_blacklist_table_initialize(c);
1034         if (ret) {
1035                 bch_err(c, "error initializing blacklist table");
1036                 goto err;
1037         }
1038
1039         if (!c->sb.clean || c->opts.fsck || c->opts.keep_journal) {
1040                 struct journal_replay *i;
1041
1042                 bch_verbose(c, "starting journal read");
1043                 ret = bch2_journal_read(c, &c->journal_entries,
1044                                         &blacklist_seq, &journal_seq);
1045                 if (ret)
1046                         goto err;
1047
1048                 list_for_each_entry_reverse(i, &c->journal_entries, list)
1049                         if (!i->ignore) {
1050                                 last_journal_entry = &i->j;
1051                                 break;
1052                         }
1053
1054                 if (mustfix_fsck_err_on(c->sb.clean &&
1055                                         last_journal_entry &&
1056                                         !journal_entry_empty(last_journal_entry), c,
1057                                 "filesystem marked clean but journal not empty")) {
1058                         c->sb.compat &= ~(1ULL << BCH_COMPAT_alloc_info);
1059                         SET_BCH_SB_CLEAN(c->disk_sb.sb, false);
1060                         c->sb.clean = false;
1061                 }
1062
1063                 if (!last_journal_entry) {
1064                         fsck_err_on(!c->sb.clean, c, "no journal entries found");
1065                         goto use_clean;
1066                 }
1067
1068                 c->journal_keys = journal_keys_sort(&c->journal_entries);
1069                 if (!c->journal_keys.d) {
1070                         ret = -ENOMEM;
1071                         goto err;
1072                 }
1073
1074                 if (c->sb.clean && last_journal_entry) {
1075                         ret = verify_superblock_clean(c, &clean,
1076                                                       last_journal_entry);
1077                         if (ret)
1078                                 goto err;
1079                 }
1080         } else {
1081 use_clean:
1082                 if (!clean) {
1083                         bch_err(c, "no superblock clean section found");
1084                         ret = BCH_FSCK_REPAIR_IMPOSSIBLE;
1085                         goto err;
1086
1087                 }
1088                 blacklist_seq = journal_seq = le64_to_cpu(clean->journal_seq) + 1;
1089         }
1090
1091         if (c->opts.read_journal_only)
1092                 goto out;
1093
1094         if (c->opts.reconstruct_alloc) {
1095                 c->sb.compat &= ~(1ULL << BCH_COMPAT_alloc_info);
1096                 drop_alloc_keys(&c->journal_keys);
1097         }
1098
1099         zero_out_btree_mem_ptr(&c->journal_keys);
1100
1101         ret = journal_replay_early(c, clean, &c->journal_entries);
1102         if (ret)
1103                 goto err;
1104
1105         /*
1106          * After an unclean shutdown, skip then next few journal sequence
1107          * numbers as they may have been referenced by btree writes that
1108          * happened before their corresponding journal writes - those btree
1109          * writes need to be ignored, by skipping and blacklisting the next few
1110          * journal sequence numbers:
1111          */
1112         if (!c->sb.clean)
1113                 journal_seq += 8;
1114
1115         if (blacklist_seq != journal_seq) {
1116                 ret = bch2_journal_seq_blacklist_add(c,
1117                                         blacklist_seq, journal_seq);
1118                 if (ret) {
1119                         bch_err(c, "error creating new journal seq blacklist entry");
1120                         goto err;
1121                 }
1122         }
1123
1124         ret = bch2_fs_journal_start(&c->journal, journal_seq,
1125                                     &c->journal_entries);
1126         if (ret)
1127                 goto err;
1128
1129         ret = read_btree_roots(c);
1130         if (ret)
1131                 goto err;
1132
1133         bch_verbose(c, "starting alloc read");
1134         err = "error reading allocation information";
1135
1136         down_read(&c->gc_lock);
1137         ret = bch2_alloc_read(c, false, false);
1138         up_read(&c->gc_lock);
1139
1140         if (ret)
1141                 goto err;
1142         bch_verbose(c, "alloc read done");
1143
1144         bch_verbose(c, "starting stripes_read");
1145         err = "error reading stripes";
1146         ret = bch2_stripes_read(c);
1147         if (ret)
1148                 goto err;
1149         bch_verbose(c, "stripes_read done");
1150
1151         /*
1152          * If we're not running fsck, this ensures bch2_fsck_err() calls are
1153          * instead interpreted as bch2_inconsistent_err() calls:
1154          */
1155         if (!c->opts.fsck)
1156                 set_bit(BCH_FS_FSCK_DONE, &c->flags);
1157
1158         if (c->opts.fsck ||
1159             !(c->sb.compat & (1ULL << BCH_COMPAT_alloc_info)) ||
1160             !(c->sb.compat & (1ULL << BCH_COMPAT_alloc_metadata)) ||
1161             test_bit(BCH_FS_REBUILD_REPLICAS, &c->flags)) {
1162                 bool metadata_only = c->opts.norecovery;
1163
1164                 bch_info(c, "checking allocations");
1165                 err = "error in mark and sweep";
1166                 ret = bch2_gc(c, true, metadata_only);
1167                 if (ret)
1168                         goto err;
1169                 bch_verbose(c, "done checking allocations");
1170         }
1171
1172         bch2_stripes_heap_start(c);
1173
1174         clear_bit(BCH_FS_REBUILD_REPLICAS, &c->flags);
1175         set_bit(BCH_FS_INITIAL_GC_DONE, &c->flags);
1176         set_bit(BCH_FS_MAY_GO_RW, &c->flags);
1177
1178         /*
1179          * Skip past versions that might have possibly been used (as nonces),
1180          * but hadn't had their pointers written:
1181          */
1182         if (c->sb.encryption_type && !c->sb.clean)
1183                 atomic64_add(1 << 16, &c->key_version);
1184
1185         if (c->opts.norecovery)
1186                 goto out;
1187
1188         bch_verbose(c, "starting journal replay, %zu keys", c->journal_keys.nr);
1189         err = "journal replay failed";
1190         ret = bch2_journal_replay(c);
1191         if (ret)
1192                 goto err;
1193         if (c->opts.verbose || !c->sb.clean)
1194                 bch_info(c, "journal replay done");
1195
1196         if (c->sb.version < bcachefs_metadata_version_snapshot_2) {
1197                 bch2_fs_lazy_rw(c);
1198
1199                 err = "error creating root snapshot node";
1200                 ret = bch2_fs_initialize_subvolumes(c);
1201                 if (ret)
1202                         goto err;
1203         }
1204
1205         bch_verbose(c, "reading snapshots table");
1206         err = "error reading snapshots table";
1207         ret = bch2_fs_snapshots_start(c);
1208         if (ret)
1209                 goto err;
1210         bch_verbose(c, "reading snapshots done");
1211
1212         if (c->sb.version < bcachefs_metadata_version_snapshot_2) {
1213                 /* set bi_subvol on root inode */
1214                 err = "error upgrade root inode for subvolumes";
1215                 ret = bch2_trans_do(c, NULL, NULL, BTREE_INSERT_LAZY_RW,
1216                                     bch2_fs_upgrade_for_subvolumes(&trans));
1217                 if (ret)
1218                         goto err;
1219         }
1220
1221         if (c->opts.fsck) {
1222                 bch_info(c, "starting fsck");
1223                 err = "error in fsck";
1224                 ret = bch2_fsck_full(c);
1225                 if (ret)
1226                         goto err;
1227                 bch_verbose(c, "fsck done");
1228         } else if (!c->sb.clean) {
1229                 bch_verbose(c, "checking for deleted inodes");
1230                 err = "error in recovery";
1231                 ret = bch2_fsck_walk_inodes_only(c);
1232                 if (ret)
1233                         goto err;
1234                 bch_verbose(c, "check inodes done");
1235         }
1236
1237         if (enabled_qtypes(c)) {
1238                 bch_verbose(c, "reading quotas");
1239                 ret = bch2_fs_quota_read(c);
1240                 if (ret)
1241                         goto err;
1242                 bch_verbose(c, "quotas done");
1243         }
1244
1245         mutex_lock(&c->sb_lock);
1246         if (c->opts.version_upgrade) {
1247                 c->disk_sb.sb->version = cpu_to_le16(bcachefs_metadata_version_current);
1248                 c->disk_sb.sb->features[0] |= cpu_to_le64(BCH_SB_FEATURES_ALL);
1249                 write_sb = true;
1250         }
1251
1252         if (!test_bit(BCH_FS_ERROR, &c->flags)) {
1253                 c->disk_sb.sb->compat[0] |= cpu_to_le64(1ULL << BCH_COMPAT_alloc_info);
1254                 write_sb = true;
1255         }
1256
1257         if (c->opts.fsck &&
1258             !test_bit(BCH_FS_ERROR, &c->flags) &&
1259             !test_bit(BCH_FS_ERRORS_NOT_FIXED, &c->flags)) {
1260                 SET_BCH_SB_HAS_ERRORS(c->disk_sb.sb, 0);
1261                 SET_BCH_SB_HAS_TOPOLOGY_ERRORS(c->disk_sb.sb, 0);
1262                 write_sb = true;
1263         }
1264
1265         if (write_sb)
1266                 bch2_write_super(c);
1267         mutex_unlock(&c->sb_lock);
1268
1269         if (!(c->sb.compat & (1ULL << BCH_COMPAT_extents_above_btree_updates_done)) ||
1270             !(c->sb.compat & (1ULL << BCH_COMPAT_bformat_overflow_done)) ||
1271             le16_to_cpu(c->sb.version_min) < bcachefs_metadata_version_btree_ptr_sectors_written) {
1272                 struct bch_move_stats stats;
1273
1274                 bch_move_stats_init(&stats, "recovery");
1275
1276                 bch_info(c, "scanning for old btree nodes");
1277                 ret = bch2_fs_read_write(c);
1278                 if (ret)
1279                         goto err;
1280
1281                 ret = bch2_scan_old_btree_nodes(c, &stats);
1282                 if (ret)
1283                         goto err;
1284                 bch_info(c, "scanning for old btree nodes done");
1285         }
1286
1287         if (c->journal_seq_blacklist_table &&
1288             c->journal_seq_blacklist_table->nr > 128)
1289                 queue_work(system_long_wq, &c->journal_seq_blacklist_gc_work);
1290
1291         ret = 0;
1292 out:
1293         set_bit(BCH_FS_FSCK_DONE, &c->flags);
1294         bch2_flush_fsck_errs(c);
1295
1296         if (!c->opts.keep_journal) {
1297                 bch2_journal_keys_free(&c->journal_keys);
1298                 bch2_journal_entries_free(&c->journal_entries);
1299         }
1300         kfree(clean);
1301         if (ret)
1302                 bch_err(c, "Error in recovery: %s (%i)", err, ret);
1303         else
1304                 bch_verbose(c, "ret %i", ret);
1305         return ret;
1306 err:
1307 fsck_err:
1308         bch2_fs_emergency_read_only(c);
1309         goto out;
1310 }
1311
1312 int bch2_fs_initialize(struct bch_fs *c)
1313 {
1314         struct bch_inode_unpacked root_inode, lostfound_inode;
1315         struct bkey_inode_buf packed_inode;
1316         struct qstr lostfound = QSTR("lost+found");
1317         const char *err = "cannot allocate memory";
1318         struct bch_dev *ca;
1319         LIST_HEAD(journal);
1320         unsigned i;
1321         int ret;
1322
1323         bch_notice(c, "initializing new filesystem");
1324
1325         mutex_lock(&c->sb_lock);
1326         c->disk_sb.sb->compat[0] |= cpu_to_le64(1ULL << BCH_COMPAT_extents_above_btree_updates_done);
1327         c->disk_sb.sb->compat[0] |= cpu_to_le64(1ULL << BCH_COMPAT_bformat_overflow_done);
1328
1329         if (c->opts.version_upgrade) {
1330                 c->disk_sb.sb->version = cpu_to_le16(bcachefs_metadata_version_current);
1331                 c->disk_sb.sb->features[0] |= cpu_to_le64(BCH_SB_FEATURES_ALL);
1332                 bch2_write_super(c);
1333         }
1334         mutex_unlock(&c->sb_lock);
1335
1336         set_bit(BCH_FS_INITIAL_GC_DONE, &c->flags);
1337         set_bit(BCH_FS_MAY_GO_RW, &c->flags);
1338         set_bit(BCH_FS_FSCK_DONE, &c->flags);
1339
1340         for (i = 0; i < BTREE_ID_NR; i++)
1341                 bch2_btree_root_alloc(c, i);
1342
1343         err = "unable to allocate journal buckets";
1344         for_each_online_member(ca, c, i) {
1345                 ret = bch2_dev_journal_alloc(ca);
1346                 if (ret) {
1347                         percpu_ref_put(&ca->io_ref);
1348                         goto err;
1349                 }
1350         }
1351
1352         /*
1353          * journal_res_get() will crash if called before this has
1354          * set up the journal.pin FIFO and journal.cur pointer:
1355          */
1356         bch2_fs_journal_start(&c->journal, 1, &journal);
1357         bch2_journal_set_replay_done(&c->journal);
1358
1359         err = "error going read-write";
1360         ret = bch2_fs_read_write_early(c);
1361         if (ret)
1362                 goto err;
1363
1364         /*
1365          * Write out the superblock and journal buckets, now that we can do
1366          * btree updates
1367          */
1368         err = "error marking superblock and journal";
1369         for_each_member_device(ca, c, i) {
1370                 ret = bch2_trans_mark_dev_sb(c, ca);
1371                 if (ret) {
1372                         percpu_ref_put(&ca->ref);
1373                         goto err;
1374                 }
1375
1376                 ca->new_fs_bucket_idx = 0;
1377         }
1378
1379         err = "error creating root snapshot node";
1380         ret = bch2_fs_initialize_subvolumes(c);
1381         if (ret)
1382                 goto err;
1383
1384         bch_verbose(c, "reading snapshots table");
1385         err = "error reading snapshots table";
1386         ret = bch2_fs_snapshots_start(c);
1387         if (ret)
1388                 goto err;
1389         bch_verbose(c, "reading snapshots done");
1390
1391         bch2_inode_init(c, &root_inode, 0, 0,
1392                         S_IFDIR|S_IRWXU|S_IRUGO|S_IXUGO, 0, NULL);
1393         root_inode.bi_inum      = BCACHEFS_ROOT_INO;
1394         root_inode.bi_subvol    = BCACHEFS_ROOT_SUBVOL;
1395         bch2_inode_pack(c, &packed_inode, &root_inode);
1396         packed_inode.inode.k.p.snapshot = U32_MAX;
1397
1398         err = "error creating root directory";
1399         ret = bch2_btree_insert(c, BTREE_ID_inodes,
1400                                 &packed_inode.inode.k_i,
1401                                 NULL, NULL, 0);
1402         if (ret)
1403                 goto err;
1404
1405         bch2_inode_init_early(c, &lostfound_inode);
1406
1407         err = "error creating lost+found";
1408         ret = bch2_trans_do(c, NULL, NULL, 0,
1409                 bch2_create_trans(&trans,
1410                                   BCACHEFS_ROOT_SUBVOL_INUM,
1411                                   &root_inode, &lostfound_inode,
1412                                   &lostfound,
1413                                   0, 0, S_IFDIR|0700, 0,
1414                                   NULL, NULL, (subvol_inum) { 0 }, 0));
1415         if (ret) {
1416                 bch_err(c, "error creating lost+found");
1417                 goto err;
1418         }
1419
1420         if (enabled_qtypes(c)) {
1421                 ret = bch2_fs_quota_read(c);
1422                 if (ret)
1423                         goto err;
1424         }
1425
1426         err = "error writing first journal entry";
1427         ret = bch2_journal_flush(&c->journal);
1428         if (ret)
1429                 goto err;
1430
1431         mutex_lock(&c->sb_lock);
1432         SET_BCH_SB_INITIALIZED(c->disk_sb.sb, true);
1433         SET_BCH_SB_CLEAN(c->disk_sb.sb, false);
1434
1435         bch2_write_super(c);
1436         mutex_unlock(&c->sb_lock);
1437
1438         return 0;
1439 err:
1440         pr_err("Error initializing new filesystem: %s (%i)", err, ret);
1441         return ret;
1442 }