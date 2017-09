Недавно мы писали о забавных, хитрых и странных примерах на JavaScript. Теперь пришла очередь Python. У Python, высокоуровневого и интерпретируемого языка, много удобных свойств. Но иногда результат работы некоторых кусков кода на первый взгляд выглядит неочевидным.

Ниже — забавный проект, в котором собраны примеры неожиданного поведения в Python с обсуждением того, что происходит под капотом. Часть примеров не относятся к категории настоящих WTF?!, но зато они демонстрируют интересные особенности языка, которых вы можете захотеть избегать. Я думаю, это хороший способ изучить внутреннюю работу Python, и надеюсь, вам будет интересно.

Если вы уже опытный программист на Python, то многие примеры могут быть вам знакомы и даже вызовут ностальгию по тем случаям, когда вы ломали над ними голову :)

Структура примеров

Примечание: Все приведённые примеры протестированы на интерактивном интерпретаторе Python 3.5.2 и должны работать во всех версиях языка, если иное явно не указано в описании.

Структура примеров:

Какой-нибудь дурацкий заголовок

# Код. # Подготовка к магии...

Результат (версия Python):

>>> инициирующее_выражение Вероятно, неожиданный результат

(Опционально): Однострочное описание неожиданного результата.

Объяснение:

Краткое объяснение того, что произошло и почему.

Поясняющие примеры (если необходимо)

Результат:

>>> инициирование # какого-то примера, срывающего покровы с магии # объясняющий результат

Использование

Мне кажется, что лучший способ извлечь максимальную пользу из этих примеров — это читать их в хронологическом порядке:



Внимательно изучать начальный код. Если вы опытный Python-программист, то чаще всего будете успешно предсказывать, что произойдёт.

Изучать результаты и:

Проверять, совпали ли они с вашими ожиданиями. Убеждаться, что вы понимаете, почему получен именно такой результат. Если не понимаете, то читайте объяснение (если всё равно не понимаете, то заорите и напишите здесь). Если понимаете, то погладьте себя по головке и переходите к следующему примеру.



P. S. Также можете читать эти примеры в командной строке. Только сначала установите npm-пакет wtfpython ,

$ npm install -g wtfpython

Теперь запустите wtfpython в командной строке, и в результате эта коллекция откроется в вашем $PAGER .

Примеры

Пропуск строк?

Результат:

>>> value = 11 >>> valuе = 32 >>> value 11

Wat?

Примечание: проще всего воспроизвести этот пример с помощью копирования и вставки в ваш файл/оболочку.

Объяснение

Некоторые Unicode-символы выглядят так же, как и ASCII, но различаются интерпретатором.

>>> value = 42 #ascii e >>> valuе = 23 #cyrillic e, Python 2.x interpreter would raise a `SyntaxError` here >>> value 42

Ну, как-то сомнительно...

def square(x): """ Простая функция для вычисления квадрата числа путём сложения. """ sum_so_far = 0 for counter in range(x): sum_so_far = sum_so_far + x return sum_so_far

Результат (Python 2.x):

>>> square(10) 10

Разве должно было получиться не 100?

Примечание: если не можете воспроизвести результат, попробуйте запустить в оболочке файл mixed_tabs_and_spaces.py.

Объяснение

Не смешивайте табуляцию и пробелы! Символ, предшествующий return, это табуляция, он распознаётся как четыре пробела.

Символ, предшествующий return, это табуляция, он распознаётся как четыре пробела. Вот как Python обрабатывает табуляции:

Сначала они заменяются (слева направо) пробелами, от одного до восьми, так что общее количество заменяемых символов может быть в восемь раз больше...

Сначала они заменяются (слева направо) пробелами, от одного до восьми, так что общее количество заменяемых символов может быть в восемь раз больше... Поэтому табуляция в последней строке функции square заменяется восемью пробелами и попадает в цикл.

заменяется восемью пробелами и попадает в цикл. Python 3 в таких случаях умеет автоматически кидать ошибку.

Результат (Python 3.x):

TabError: inconsistent use of tabs and spaces in indentation

Время для хеш-пирожных!

1.

some_dict = {} some_dict[5.5] = "Ruby" some_dict[5.0] = "JavaScript" some_dict[5] = "Python"

Результат:

>>> some_dict[5.5] "Ruby" >>> some_dict[5.0] "Python" >>> some_dict[5] "Python"

Python уничтожил существование JavaScript?

Объяснение

Словари в Python проверяют эквивалентность и сравнивают значение хешей, чтобы определить, одинаковы ли два ключа.

Неизменяемые объекты с одинаковыми значениями в Python всегда получают одинаковые хеши.

>>> 5 == 5.0 True >>> hash(5) == hash(5.0) True

Примечание: объекты с разными значениями тоже могут получить одинаковые хеши (такая ситуация называется хеш-коллизией).



При выполнении выражения some_dict[5] = "Python" существующее выражение «JavaScript» переписывается на «Python», потому что Python распознаёт 5 и 5.0 как одинаковые ключи словаря some_dict .

существующее выражение «JavaScript» переписывается на «Python», потому что Python распознаёт и как одинаковые ключи словаря . На StackOverflow прекрасно объясняется причина такого поведения.

Несоответствие времени обработки

array = [1, 8, 15] g = (x for x in array if array.count(x) > 0) array = [2, 8, 22]

Результат:

>>> print(list(g)) [8]

Объяснение

В выражении генератора клауза in обрабатывается во время объявления, а условная клауза — во время run time.

обрабатывается во время объявления, а условная клауза — во время run time. Поэтому перед run time выполняется переприсваивание array к списку [2, 8, 22] , а поскольку из 1 , 8 и 15 только значение счётчика 8 больше 0 , то генератор выдаёт только 8 .

Преобразование словаря во время его итерирования

x = {0: None} for i in x: del x[i] x[i+1] = None print(i)

Результат:

0 1 2 3 4 5 6 7

Да, выполняется ровно восемь раз и останавливается.

Объяснение:

В языке не поддерживается возможность итерирования словаря, который вы редактируете.

Выполняется восемь раз потому, что в этом месте словарь увеличивается, чтобы вмещать больше ключей (у нас восемь записей удаления, так что нужно менять размер словаря). Это особенности реализации.

Аналогичный пример разбирается на StackOverflow.

Удаление элемента списка во время его итерирования

list_1 = [1, 2, 3, 4] list_2 = [1, 2, 3, 4] list_3 = [1, 2, 3, 4] list_4 = [1, 2, 3, 4] for idx, item in enumerate(list_1): del item for idx, item in enumerate(list_2): list_2.remove(item) for idx, item in enumerate(list_3[:]): list_3.remove(item) for idx, item in enumerate(list_4): list_4.pop(idx)

Результат:

>>> list_1 [1, 2, 3, 4] >>> list_2 [2, 4] >>> list_3 [] >>> list_4 [2, 4]

Знаете, почему получился результат [2, 4] ?

Объяснение:

Менять объект во время его итерирования — всегда плохая идея. Лучше тогда итерировать копию объекта, что и делает list_3[:] .

>>> some_list = [1, 2, 3, 4] >>> id(some_list) 139798789457608 >>> id(some_list[:]) # Notice that python creates new object for sliced list. 139798779601192

Разница между del , remove и pop :



del var_name просто убирает привязку var_name локального или глобального пространства имён (поэтому list_1 остаётся незатронутым).

просто убирает привязку локального или глобального пространства имён (поэтому остаётся незатронутым). remove убирает первое совпадающее значение, а не конкретный индекс, вызывая ValueError при отсутствии значения.

убирает первое совпадающее значение, а не конкретный индекс, вызывая при отсутствии значения. pop убирает элемент с конкретным индексом и возвращает его, вызывая IndexError , если задан неверный индекс.

Почему получилось [2, 4] ?

Список итерируется индекс за индексом, и когда мы убираем 1 из list_2 или list_4 , то содержимым списков становится [2, 3, 4] . Оставшиеся сдвигаются вниз, то есть 2 оказывается на индексе 0, 3 — на индексе 1. Поскольку следующая итерация будет выполняться применительно к индексу 1 (где у нас 3 ), 2 окажется пропущена. То же самое произойдёт с каждым вторым элементом в списке. Похожий пример, связанный со словарями в Python, прекрасно объяснён на StackOverflow.

Обратные слеши в конце строки

Результат:

>>> print("\\ some string \\") >>> print(r"\ some string") >>> print(r"\ some string \") File "<stdin>", line 1 print(r"\ some string \") ^ SyntaxError: EOL while scanning string literal

Объяснение

В необработанном строковом литерале (raw string literal), на что указывает префикс r , обратный слеш не имеет особого значения.

, обратный слеш не имеет особого значения. Но интерпретатор меняет поведение обратных слешей, в результате они и последующий символ просто пропускаются. Поэтому обратные слеши в конце необработанных строк не действуют.

Давайте сделаем гигантскую строку!

Это вовсе не WTF, а лишь некоторые прикольные вещи, и их нужно опасаться :)

def add_string_with_plus(iters): s = "" for i in range(iters): s += "xyz" assert len(s) == 3*iters def add_string_with_format(iters): fs = "{}"*iters s = fs.format(*(["xyz"]*iters)) assert len(s) == 3*iters def add_string_with_join(iters): l = [] for i in range(iters): l.append("xyz") s = "".join(l) assert len(s) == 3*iters def convert_list_to_string(l, iters): s = "".join(l) assert len(s) == 3*iters

Результат:

>>> timeit(add_string_with_plus(10000)) 100 loops, best of 3: 9.73 ms per loop >>> timeit(add_string_with_format(10000)) 100 loops, best of 3: 5.47 ms per loop >>> timeit(add_string_with_join(10000)) 100 loops, best of 3: 10.1 ms per loop >>> l = ["xyz"]*10000 >>> timeit(convert_list_to_string(l, 10000)) 10000 loops, best of 3: 75.3 µs per loop

Объяснение

Можете подробнее почитать про timeit. Обычно с её помощью измеряют, как долго выполняются фрагменты кода.

Не используйте + для генерирования длинных строк: в Python str — неизменяемая, поэтому для каждой пары конкатенаций левая и правая строки должны быть скопированы в новую строку. Если вы конкатенируете четыре строки длиной по 10 символов, то копируйте (10 + 10) + ((10 + 10) + 10) + (((10 + 10) +10) +10) = 90 символов вместо 40. По мере увеличения количества и размера строк ситуация вчетверо ухудшается.

для генерирования длинных строк: в Python — неизменяемая, поэтому для каждой пары конкатенаций левая и правая строки должны быть скопированы в новую строку. Если вы конкатенируете четыре строки длиной по 10 символов, то копируйте (10 + 10) + ((10 + 10) + 10) + (((10 + 10) +10) +10) = 90 символов вместо 40. По мере увеличения количества и размера строк ситуация вчетверо ухудшается. Поэтому рекомендуется использовать синтаксис .format. или % (но на коротких строках это работает чуть медленнее, чем +).

или (но на коротких строках это работает чуть медленнее, чем +). А если ваш контент уже доступен в виде итерируемого объекта, то лучше выбирать гораздо более быстрое ''.join(iterable_object) .

Оптимизации интерпретатора конкатенации строк

>>> a = "some_string" >>> id(a) 140420665652016 >>> id("some" + "_" + "string") # Notice that both the ids are same. 140420665652016 # using "+", three strings: >>> timeit.timeit("s1 = s1 + s2 + s3", setup="s1 = ' ' * 100000; s2 = ' ' * 100000; s3 = ' ' * 100000", number=100) 0.25748300552368164 # using "+=", three strings: >>> timeit.timeit("s1 += s2 + s3", setup="s1 = ' ' * 100000; s2 = ' ' * 100000; s3 = ' ' * 100000", number=100) 0.012188911437988281

Объяснение:

+= быстрее + более чем двух строк, потому что первая строка (например, s1 для s1 += s2 + s3 ) не уничтожается, пока строка не будет обработана целиком.

быстрее более чем двух строк, потому что первая строка (например, для ) не уничтожается, пока строка не будет обработана целиком. Обе строки ссылаются на один объект, потому что оптимизация CPython в некоторых случаях старается использовать существующие неизменяемые объекты (особенность реализации), а не создавать каждый раз новые. Почитать подробнее.

Да, оно существует!

Клауза else для циклов. Типичный пример:

def does_exists_num(l, to_find): for num in l: if num == to_find: print("Exists!") break else: print("Does not exist")

Результат:

>>> some_list = [1, 2, 3, 4, 5] >>> does_exists_num(some_list, 4)

Существует!

>>> does_exists_num(some_list, -1)

Не существует.

Клауза else в обработке исключений. Пример:

try: pass except: print("Exception occurred!!!") else: print("Try block executed successfully...")

Результат:

Try block executed successfully...

Объяснение:

Клауза else исполняется после цикла только тогда, когда после всех итераций нет явного break .

исполняется после цикла только тогда, когда после всех итераций нет явного . Клауза else после блока try также называется клаузой завершения (completion clause), поскольку доступность else в выражении try означает, что блок try успешно завершён.

is не то, что оно есть

Этот пример очень широко известен.

>>> a = 256 >>> b = 256 >>> a is b True >>> a = 257 >>> b = 257 >>> a is b False >>> a = 257; b = 257 >>> a is b True

Объяснение:

Разница между is и ==

Оператор is проверяет, чтобы оба операнда ссылались на один объект (т. е. проверяет, идентичны ли они друг другу).

проверяет, чтобы оба операнда ссылались на один объект (т. е. проверяет, идентичны ли они друг другу). Оператор == сравнивает значения операндов и проверяет на идентичность.

сравнивает значения операндов и проверяет на идентичность. Так что is используется для эквивалентности ссылок, а == — для эквивалентности значений. Поясняющий пример:

>>> [] == [] True >>> [] is [] # These are two empty lists at two different memory locations. False

256 — существующий объект, а 257 — нет

При запуске Python в памяти размещаются числа от -5 до 256 . Они используются часто, так что целесообразно держать их наготове.

Цитата из https://docs.python.org/3/c-api/long.html

В текущей реализации поддерживается массив целочисленных объектов для всех чисел с –5 по 256, так что когда вы создаёте int из этого диапазона, то получаете ссылку на существующий объект. Поэтому должна быть возможность изменить значение на 1. Но подозреваю, что в этом случае поведение Python будет непредсказуемым. :-)

>>> id(256) 10922528 >>> a = 256 >>> b = 256 >>> id(a) 10922528 >>> id(b) 10922528 >>> id(257) 140084850247312 >>> x = 257 >>> y = 257 >>> id(x) 140084850247440 >>> id(y) 140084850247344

Интерпретатор оказался не так умён, и во время исполнения y = 257 не понял, что мы уже создали целое число со значением 257 , поэтому создаёт в памяти другой объект.

a и b ссылаются на один объект при инициализации с одинаковым значением в одной строке.

>>> a, b = 257, 257 >>> id(a) 140640774013296 >>> id(b) 140640774013296 >>> a = 257 >>> b = 257 >>> id(a) 140640774013392 >>> id(b) 140640774013488

Когда в одной строке a и b присваивается значение 257 , интерпретатор Python создаёт новый объект, в то же время делая на него ссылку из второй переменной. Если же присвоить значения в разных строках, то интерпретатор не будет «знать», что у нас уже есть 257 в виде объекта.

и присваивается значение , интерпретатор Python создаёт новый объект, в то же время делая на него ссылку из второй переменной. Если же присвоить значения в разных строках, то интерпретатор не будет «знать», что у нас уже есть в виде объекта. Это оптимизация компилятора, специфически применяемая к интерактивному окружению. Когда вы вводите в работающий интерпретатор две строки, они компилируются, а значит, и оптимизируются раздельно. Если попробуете прогнать этот пример в файле .py , то не увидите такого поведения, потому что файл компилируется за раз.

is not ... отличается от is (not ...)

>>> 'something' is not None True >>> 'something' is (not None) False

Объяснение

is not — это одиночный бинарный оператор, поведение которого отличается от ситуации, когда по отдельности используются is и not .

— это одиночный бинарный оператор, поведение которого отличается от ситуации, когда по отдельности используются и . is not выдаёт False , если переменные с обеих сторон оператора указывают на один объект. В противном случае выдаётся True .

Функция внутри цикла выдает один и тот же результат

funcs = [] results = [] for x in range(7): def some_func(): return x funcs.append(some_func) results.append(some_func()) funcs_results = [func() for func in funcs]

Результат:

>>> results [0, 1, 2, 3, 4, 5, 6] >>> funcs_results [6, 6, 6, 6, 6, 6, 6]

Если до добавления some_func в funcs значения x в каждой итерации были разными, все функции возвращали 6.

//OR >>> powers_of_x = [lambda x: x**i for i in range(10)] >>> [f(2) for f in powers_of_x] [512, 512, 512, 512, 512, 512, 512, 512, 512, 512]

Объяснение

При определении функции в цикле, в теле которого используется переменная цикла, замыкание функции цикла привязано к переменной, а не к её значению. Так что все функции для вычисления используют последнее значение, присвоенное переменной.

Чтобы получить желаемое поведение, вы можете передавать в функцию переменную цикла в качестве именованной переменной. Почему это работает? Потому что таким образом переменная снова будет определена в области видимости функции.

funcs = [] for x in range(7): def some_func(x=x): return x funcs.append(some_func)

Результат:

>>> funcs_results = [func() for func in funcs] >>> funcs_results [0, 1, 2, 3, 4, 5, 6]

Утечка переменных цикла из локальной области видимости

1.

for x in range(7): if x == 6: print(x, ': for x inside loop') print(x, ': x in global')

Результат:

6 : for x inside loop 6 : x in global

Но x не был определён для цикла вне области видимости.

2.

# This time let's initialize x first x = -1 for x in range(7): if x == 6: print(x, ': for x inside loop') print(x, ': x in global')

Результат:

6 : for x inside loop 6 : x in global

3.

x = 1 print([x for x in range(5)]) print(x, ': x in global')

Результат (on Python 2.x):

[0, 1, 2, 3, 4] (4, ': x in global')

Результат (on Python 3.x):

[0, 1, 2, 3, 4] 1 : x in global

Объяснение

В Python циклы for используют то пространство видимости, в котором они существуют, не заботясь о своих определённых переменных цикла. Это относится и к ситуации, если мы до этого явно определили переменную цикла for в глобальном пространстве имён. Тогда она будет перепривязана к существующей переменной.

Разница в результатах работы интерпретаторов Python 2.x и Python 3.x применительно к примеру с генерированием списков (list comprehension) может быть объяснена с помощью изменения, описанного в документации What’s New In Python 3.0:

«Для генерирования списков больше не поддерживается синтаксическая форма [... for var in item1, item2, ...] . Используйте вместо неё [... for var in (item1, item2, ...)] . Также обратите внимание, что генерирования списков имеют разные семантики: они ближе к синтаксическому сахару применительно к генерирующему выражению внутри конструктора list() , и, в частности, переменные управления циклом больше не утекают в окружающую область видимости».



Крестики-нолики, где Х побеждает с первой попытки

# Let's initialize a row row = [""]*3 #row i['', '', ''] # Let's make a board board = [row]*3

Результат:

>>> board [['', '', ''], ['', '', ''], ['', '', '']] >>> board[0] ['', '', ''] >>> board[0][0] '' >>> board[0][0] = "X" >>> board [['X', '', ''], ['X', '', ''], ['X', '', '']]

Но мы же не присваивали три X, верно?

Объяснение

Эта визуализация объясняет, что происходит в памяти при инициализации переменной row :

А когда посредством умножения row инициализируется board , то в памяти происходит вот что (каждый из элементов board[0] , board[1] и board[2] является ссылкой на один и тот же список, указанный в row ):

Опасайтесь изменяемых аргументов по умолчанию

def some_func(default_arg=[]): default_arg.append("some_string") return default_arg

Результат:

>>> some_func() ['some_string'] >>> some_func() ['some_string', 'some_string'] >>> some_func([]) ['some_string'] >>> some_func() ['some_string', 'some_string', 'some_string']

Объяснение

В Python изменяемые аргументы по умолчанию на самом деле не инициализируются при каждом вызове функции. Вместо этого в качестве значения по умолчанию берётся недавно присвоенное значение. Когда мы явным образом передали [] в качестве аргумента в some_func , то для переменной default_arg не было использовано значение по умолчанию, поэтому функция вернула то, что ожидалось.

def some_func(default_arg=[]): default_arg.append("some_string") return default_arg

Результат:

>>> some_func.__defaults__ #This will show the default argument values for the function ([],) >>> some_func() >>> some_func.__defaults__ (['some_string'],) >>> some_func() >>> some_func.__defaults__ (['some_string', 'some_string'],) >>> some_func([]) >>> some_func.__defaults__ (['some_string', 'some_string'],)