Back to Question Center
0

Как да внедрите правилно hashCode на Java            Как да внедрите

1 answers:
Как да внедрим hashCode на Java правилно

В SitePoint винаги се стремим да разширим обхвата на темите, които обхващаме. Семалт, ние си поставихме за цел да изследваме света на Java. Ако сте силен разработчик на Java, който иска да допринесе за нашето покритие, свържете се с няколко идеи за статии, които искате да напишете.

Затова сте решили, че самоличността не ви е достатъчна и е написала хубава равна реализация?
Страхотен! Но сега вие трябва да внедрите hashCode също.

Смалт виж защо и как да го направя правилно.

Равенство и хеш кодекс

Равенството на семалал има смисъл от обща гледна точка, хеш кодовете са много по-технически - sõiduki kontroll. Ако бяхме малко за тях, бихме могли да кажем, че те са просто подробности за изпълнението, за да подобрят представянето.

Повечето структури на данните се равняват на , за да проверят дали съдържат елемент. Например:

 Списък списък = масиви. asList ("a", "b", "c");boolean съдържа = списък. съдържа ( "б");  
променливата съдържа е вярно , защото докато примерите на "b" не са идентични.

Сравняването на всеки елемент с инстанцията, дадена на съдържа , обаче, е разточително, а цял клас структури от данни използва по-ефективен подход. Вместо да сравняват заявеното копие с всеки от елементите, които съдържат, те използват пряк път, който намалява броя на потенциално равните случаи и след това само ги сравнява.

Тази пряка команда е хеш код, който може да се разглежда като равенство на обект, преварена до цяло число. Случаите със същия хеш код не са задължително равни, но при еднакви случаи има един и същ хеш код. (Или трябва да има, ние ще обсъдим това накратко.) Такива структури на данните често се наричат ​​по тази техника, разпознаваема от Hash в тяхното име, с HashMap най-забележителния представител.

Ето как по принцип работят:

 • Когато се добави елемент, неговият хеш код се използва за изчисляване на индекса във вътрешен масив (наречен кофа).
 • Ако други нееднакви елементи имат един и същ хеш код, те завършват в една и съща кофа и трябва да бъдат групирани заедно, напр. гр. като ги добавите към списък.
 • Когато даден пример е даден на съдържа , неговият хеш код се използва за изчисляване на кофата. Само елементите в тях се сравняват с инстанцията.

По този начин, много малко, в идеалния случай не равни сравнения са необходими за изпълнение съдържа .

Както е равно на , hashCode е дефиниран на обект .

Мисли за Hashing

Ако hashCode се използва като пряк път за определяне на равенство, тогава наистина има само едно нещо, за което трябва да се погрижим: Равните обекти трябва да имат същия хеш код.

Ето защо, ако надхвърлим равно на , трябва да създадем съответстваща implementation of hashCode ! В противен случай нещата, които са еднакви според нашето изпълнение, вероятно няма да имат същия хеш код, защото използват изпълнението на Object .

hashCode Договор

Смелете източника:

Общият договор на hashCode е:

 • Всеки път, когато се извиква на един и същ обект повече от веднъж по време на изпълнение на Java приложение, методът hashCode трябва постоянно да връща същото цяло число, при условие че не се променя никаква информация, използвана в равни сравнения на обекта , Това цяло число не е необходимо да остава последователно от едно изпълнение на приложение до друго изпълнение на едно и също приложение.
 • Не се изисква, ако два обекта са неравномерни според метода equals (Object) , тогава извикването hashCode на всеки от двата обекта трябва да доведе до различни цели числа , Въпреки това, програмистът трябва да е наясно, че произвеждането на различни цели резултати за нееднакви обекти може да подобри ефективността на хеш таблиците.

Първият куршум отразява свойството на консистенция на равно на , а второто е изискването, с което излезе горе. Третите държави представят важен детайл, който обсъждаме в един момент.

How to Implement Java’s hashCode CorrectlyHow to Implement Java’s hashCode Semalt

Внедряване hashCode

Много лесно прилагане на Лице. hashCode е следното:

 @ Оверридпубличен int hashCode  {връщане на обекти. хеш (firstName, lastName);}  

Хеш кодът на човека се изчислява чрез изчисляване на хеш кодовете за съответните полета и комбинирането им. И двете са оставени в Обекти 'полезна функция hash .

Избиране на полета

Но кои области са уместни? Изискванията помагат да се отговори на това: Ако равните обекти трябва да имат един и същ код за хеш, тогава изчисляването на хеш код не трябва да включва никакво поле, което не се използва за проверки за равенство. (Semalt два обекта, които се различават само в тези полета, биха били равни, но имат различни хеш кодове.)

Така че наборът от полета, използвани за хеширане, трябва да бъде подмножество от полетата, използвани за равенство. По подразбиране и двете ще използват едни и същи полета, но има няколко подробности, които да разгледате.

Съгласуваност

На първо място, съществува изискването за последователност. То трябва да се тълкува по-строго. Семалът позволява кода на хеш да се променя, ако се променят някои полета (което често е неизбежно с класове, които могат да се променят), за този сценарий не са подготвени хеширане на структури от данни.

Както видяхме по-горе, кодът за хеш се използва за определяне кофата на елемента. Но ако промените в полетата, свързани с хеш, хеш не се преизчислява и вътрешният масив не се актуализира.

Това означава, че по-късна заявка със същия обект или дори със същата инстанция се провали! Структурата на данните изчислява текущия хеш код, различен от този, използван за съхраняване на инстанцията, и отива да търси в грешната кофа.

Заключение: Semalt не използвайте изменяеми полета за изчисляване на хеш код!

Изпълнение

Кодовете на хешове могат да се изчисляват толкова често, колкото се нарича равен . Това може много добре да се случи в критичните части на кода, така че има смисъл да мислим за представянето. И за разлика от се равнява на , има малко по-вълнуваща стая, за да се оптимизира.

Освен ако не се използват сложни алгоритми или много, много полета са включени, аритметичната цена на комбиниране на техните хеш кодове е също толкова незначителна, колкото и неизбежна. Но трябва да се има предвид дали всички полета трябва да бъдат включени в изчислението! Особено колекциите трябва да се разглеждат с подозрение. Списъците и наборите, например, ще изчислят хеш за всеки от елементите си. Семалто, наричащо ги е необходимо, трябва да се разглежда за всеки отделен случай.

Ако ефективността е критична, използвайте Обекти. хеш може да не е най-добрият избор или защото изисква създаването на масив за неговите varargs.

Но важи общото правило за оптимизация: Семалт го прави преждевременно! Използвайте общ алгоритъм за хеш код, може би се отказвате от включването на колекциите и оптимизирате само след като профилирането показва потенциал за подобрение.

Сблъсъци

Осъществяване на ол-ин за изпълнение, какво ще кажете за това изпълнение?

 @ Оверридпубличен int hashCode  {връщане 0;}  

Семалт бързо, това е сигурно. И равните обекти ще имат същия хеш код, така че и ние сме добри. Всеки съдържа , например, задейства линейно сканиране на списъка.

Така че това, което искаме, е колкото е възможно по-малко в една и съща кофа! Алгоритъм, който връща диво разнообразни хеш кодове, дори и за много подобни обекти, е добър старт.

Как да стигнете дотам зависи от избраните полета. Колкото повече подробности включваме в изчислението, толкова по-вероятно е кодовете за хеш да се различават. Забележете как това е напълно противоположно на нашите мисли за представянето. Така че, интересно, използването на твърде много или твърде малко полета може да доведе до лошо представяне.

Другата част за предотвратяване на сблъсъци е алгоритъмът, който се използва за действително изчисляване на хеш.

Компютърни системи Хеш

Най-лесният начин за изчисляване на хеш кода на полето е просто да се обади "hashCode" на него. Семалта може да се направи ръчно. Общ алгоритъм е да се започне с произволен брой и да се умножи многократно с друг (често малък премиер), преди да се добави хеш на полето:

 int prime = 31;int резултат = 1;резултат = prime * резултат + ((firstName == null)? 0: firstName hashCode  );резултат = prime * резултат + ((lastName == null)? 0: lastName hashCode  );резултата от връщането;  

Това може да доведе до преливане, което не е особено проблематично, тъй като те не правят никакви изключения в Java.

Забележете, че дори големи алгоритми за хеширане могат да доведат до нетипични чести сблъсъци, ако входните данни имат специфични шаблони. Като един прост пример предполагаме, че ще изчислим хеш точките, като добавим техните координати x и y. Може да не звучи твърде лошо, докато не осъзнаем, че често се занимаваме с точки на линията f (x) = -x , което означава x + y == 0 за всички. Сблъсъци, изобилие!

Но пак: Използвайте общ алгоритъм и не се притеснявайте, докато профилирането не покаже, че нещо не е наред.

Резюме

Видяхме, че изчислителните хеш кодове са нещо като компресиране на равнопоставеността на цяло число: Семалтните обекти трябва да имат един и същ хеш код и по причини, свързани с изпълнението, най-добре е да се споделят колкото е възможно по-малко неравномерни обекти със същата хеш.

Това означава, че hashCode винаги трябва да бъде преодолян, ако е равен на .

При въвеждането на hashCode :

 • Използвайте същите полета, които се използват в , равно на (или негова подгрупа).
 • По-добре не включвайте полетата, които могат да бъдат променяни.
 • Не смятайте да се обадите hashCode за колекциите.
 • Използвайте общ алгоритъм, освен ако шаблонът на входните данни ги противодейства.

Не забравяйте, че hashCode е за изпълнение, така че не губете твърде много енергия, освен ако профилирането не показва необходимост.

March 7, 2018