Snažím se pochopit, pravděpodobnost kolize nový hash, vzhledem k tomu, žádná kolize v existující hash tabulky.
Pro ilustraci, řekněme, že mám tabulku, kde jsem ukládat hashe jednotlivých řádek.
- Stůl má v současné době 1 miliardy řádků
- Nejsou žádné hash kolize mezi ty, 1 miliardy řádků.
- Já používám 64-bitový hash algoritmus.
A teď si představte, jsem-li vložit 10 milionů nových řádků dat do tabulky. Jaká je pravděpodobnost, že budu mít hash kolize teď? Myslím, že odpověď je následující:
Každý nový řádek je hash nemůže mít stejnou hodnotu některou z existujících řádků nebo nové zpracované, než sám o sobě. To odstraňuje 1 miliardy hash hodnoty z 2^64 možností, takže pravděpodobnost, že nové srážky by měly být:
Zní to dobře?