JWMash May 5 2023 at 00:51

Парсинг и обработка данных с метеосайтов Яндекс.Погода и Метеоинфо (Гидрометцентр) при помощи pandas (Часть 1)

Medium

3 min

6.1K

Python*Open data*

From sandbox

+10

Comments 7

Javian May 5 2023 at 02:21

Я бы не доверял прогнозам сервиса Яндекс Погода. Выглянув в окно можно сделать прогнозы лучше.

sunsexsurf May 8 2023 at 00:24

есть несколько офигенных лекций об этом на ютубе. Если коротко, то все сводится к двум тезисам:

1/ чем меньще квадрат предсказывания, тем сложнее предсказывать ("в среднем" на всю Москву предсказать проще, чем на конкретно вашу улицу)

2/ предсказывание погоды "как вчера" по итогу пока все равно лидирует. Есть подход "а давайте смоделируем облака и посмотрим, когда и где они выльются в зависимости от ветра" и подход "давайте все запихнем в ML и оно само там найдет что-то". Наверное, высокий результат дадут какие-то смеси, но погода по-прежнему - очень вычислительно сложная хрень.

Javian May 8 2023 at 05:41

Надо больше метеостанций на квадрат — в городе здания и ландшафт влияют. Особенно если это не относительно плоская Москва, а город в предгорье.
Пользуюсь прогнозами сервиса IBMhttps://habr.com/ru/companies/ibm/articles/332536/ — попадают точно. Могут не угадать какой-то локальный туман или залповый ливень.

sunsexsurf May 10 2023 at 14:53

Надо больше метеостанций на квадрат - это довольно существенное ограничение.

в городе здания и ландшафт влияют - да, причем очень сильно: где-то на проспектах дует, а где-то - тихо. Ну и да, часто бывает такое, что в одном районе льет как из ведра, а на условной "соседей ветке метро" - сухо.

Но когда я говорил о предсказании, то Я, как я понял, исходят из того, что "а давайте смоделируем куда тучи полетят", чтобы не утыкивать Москву датчиками. Хотя, фиг его знает, стоят они недорого, так что, может, и имеет право на жизнь. Кстати, третий тезис в комментарии выше я не написал: предсказывать сколь-нибудь внятно более чем на три дня - сложно, более чем на неделю - почти из области "среднего за прошлые годы".

Emulyator May 5 2023 at 13:20

Я не специалист по pandas и по питону, но если уж данные изначально загружены в датафрейм, то почему их не обрабатывать средствами pandas? Там же есть регулярки и удобные способы обработки данных без циклов по записям..

sunsexsurf May 8 2023 at 00:17

1/ вообще, многое выглядит какими-то костылями.
циклы - вообще не pandas-way. Применяйте функцию через apply - так вы сможете работать сразу со столбцом.

ya_full=pd.concat([list_days,temp_fin,ya_new[['press','wet']],wind_fin,temp_eff,ya_new['weather']],axis=1)

тут у вас пропущена скобочка: ya_new[['weather']]

3/ не могли бы поточнее сказать: а какую задачу вы решали? что хитрого сделали с данными яндекса, в чем ценность?

пока это выглядит поделием в духе "смотрите, я смог применить read_html и пандас сам собрал из этого датафрейм. Ценность всего этого - околонулевая. Это даже не парсинг.

traveler100 May 18 2023 at 13:57

Какую ссылку Вы используете для pd.read_html()?

Show the best of all time