SomeOneWhoCares Feb 24 2017 at 12:03

Скачивание аудио с сайта mail.ru

7 min

7.8K

Python*

From sandbox

-8

Comments 33

DaneSoul Feb 24 2017 at 12:10

Python — язык программирования, предназначенный для работы с текстом.

А можно ссылочку, откуда это? Вы точно с Perl не путаете?

estin Feb 24 2017 at 12:44

Лучше бы автор "отжег" так: Python — язык программирования, предназначенный для парсинга сайтов

SomeOneWhoCares Feb 24 2017 at 12:47

Здравствуйте, на сколько мне известно, Perl — язык программирования общего назначения, а Python специализируется на работе с текстом. Точнее ничего не могу сказать, так как, с Perl я не работаю. Если не прав, прошу меня извинить.

-7

alexey-m-ukolov Feb 24 2017 at 13:01

А вы статью, на которую дали ссылку в самом начале, не открывали?

fireSparrow Feb 24 2017 at 13:02

Да вы, похоже, и с питоном особо не работали :))

Вот только некоторые применения питона:
— Бэк-енд в вебе
— Написание бизнес-логики при работе с БД
— Парсинг страниц
— EML-скрипты
— «Админские» скрипты
— Статистическая обработка данных
— Научные вычисления
— Простые десктоп-приложения с графическим интерфейсом
— Мобильные приложения
— И многое другое!

SomeOneWhoCares Feb 24 2017 at 13:29

Здравствуйте, я догадывался что эта фраза вызовет негатив. И если я не прав в данном изречении, поправить плод нашего дискурса в лучшую сторону, это самый верный вариант. Не стоит насмехаться над кем-то, это никого не красит.

-2

fireSparrow Feb 24 2017 at 14:18

Я не хотел, чтобы это выглядело так, будто я весь такой на негативе злобно насмехаюсь над вами. Но всё-таки вы взялись писать статью о языке, о возможностях и применении которого имеете крайне поверхностное представление. И допускаете ляпы, которые кажутся очень забавными.
Имхо, в такой ситуации лёгкое подтрунивание в комментах — вполне адекватная реакция. Не надо на это болезненно реагировать.
Лучше, посмейтесь вместе с нами. Здоровая самоирония — это прекрасно.

fireSparrow Feb 24 2017 at 14:08

*ETL-скрипты, конечно же. Спутал аббревиатуры :)

Scorobey Feb 25 2017 at 12:16

Да очень похоже что Вы знакомы с Python только на уровне читающего заголовки. Основным преимуществом Python является библиотека NLTK которая работает с корпусами текстов book, Brown и другими. Кроме того для тематического анализа текстовой информации есть ещё Gensim и BigArtm не говоря уже о модулях re,pyMorfologik, pymorphy2, LDA которые составляют почти половину библиотек Python. Поэтому воздержитесь от суждения о "ляпах" и не читайте только заголовки.

-1

fireSparrow Feb 25 2017 at 12:30

Основным преимуществом Python является библиотека NLTK

Это можно считать основным преимуществом только для людей, работающих в области лингвистики. Однако же область применения питона не только не ограничивается лингвистикой, но и на самом деле в основном находится за её пределами.

У питона невероятно большое количество библиотек на все случаи жизни!

Если следовать вашей логике, то каждый человек мог бы назвать своё основное преимущество питона:
— веб-программист назвал бы Django, Flask или Pyramid
— тот, кто работает с базами назвал бы sqlalchemy и alembic
— учёный назвал бы scipy
— Data Scintist назвал бы scikit-learn или TensorFlow
а ведь ещё есть множество библиотек для создания игр, работы с аудио и графикой, фреймворки для мобильных приложений и ещё много чего.

Так что фраза «Питон — это язык для работы с текстом» — однозначно ляп.

Scorobey Feb 25 2017 at 13:07

О чем идёт речь в статье об обработке текстовых текстовых данных. Руководствуясь Вашей же логикой можно утверждать что для этой задачи Pythoon лучший для обработки текстов такого же мнения и думаю известный Вам датчанин. А создатель знает для чего он создавал Python.

fireSparrow Feb 25 2017 at 13:35

Вы этот комментарий скриптом что-ли сгенерировали?
Вообще же невозможно понять ту мысль, которую вы в него вложили, если она там вообще есть.

Создатель языка — голландец, а не датчанин.
И он никогда не говорил, что питон — специализированный язык для обработке текстов. Если я ошибаюсь, приведите ссылку на цитату.
Создатели питона делали его как универсальный язык, в него не было заложено никакого специального инструментария для работы с текстами. Все библиотеки, которые вы назвали — сторонние, созданы совсем другими людьми. Кроме модуля «re», который вполне вписывается в концепцию языка универсального назначения.

Scorobey Feb 25 2017 at 14:06

В таком объёме как Python с корпусами не работает ни один язык программирования — ссылка для ознакомления https://ru.wikipedia.org/wiki/Natural_Language_Toolkit. Вот книга которая стала бестселлером -Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. — O'Reilly Media, 2009. — ISBN 0-596-51649-5… Вот ссылка из статьи -задача, которая перед нами стоит — скачивание музыкальных произведений с сайта предоставляющего такую возможность. Использовать будем язык-программирования Python.Где здесь утверждение которое Вы назвали "ляпом". Нет здесь никакого "ляпа". Что Вы пытаетесь доказать — что Python имеет много модулей — это так, ознакомитесь http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl — Вы перечислили далеко не все. Автор статьи и не утверждал что Python только для анализа текста. Поэтому не надо разбрасываться "ляпами'/ Вашее утверждение — и на самом деле в основном находится за её пределами.лишено основания. А проверку датчанином Вы прошли. Но это единственное с чем можно согласиться. ,

DaneSoul Feb 25 2017 at 14:27

NLTK была разработана через 10 лет после релиза самого Python.
СЕЙЧАС в статье нет ляпа, там исправленный текст, исходно там была формулировка, процитированная в первом сообщении этой ветки.

Scorobey Feb 25 2017 at 15:15

О чем говорит Ваша фраза -NLTK была разработана через 10 лет после релиза самого Python, она говорит о том что Вы не знаете что модуль NLTK постоянно совершенствуется вместе с корпусами совершенствоваться и Python. Например стоп- слова теперь в 3.4,3.5 можно получить
from nltk import *
from nltk.corpus import brown
stop_words= nltk.corpus.stopwords.words('english')
Многое изменилось например появился интерфейс PyQt5. PyCharm, И тот факт что релиз появился раньше говорит только о том что Python востребован именно для анализа контента на основе больших моделей, например Big Artm. Но я думаю, что сообществу нужно заняться не бесплодной критикой молодых авторов а подсказкой по улучшению кода. Думаю автор статьи ждёт от Вас именно этого.

fireSparrow Feb 25 2017 at 21:10

Дискутировать с вами — всё равно, что с чат-ботом. Вроде бы предложения грамматически правильные, но полностью лишены смысла.

Кстати, забавно, что единственные два комментатора, которые сочли автора статьи несправедливо обиженным и кинулись защищать, — Scorobey и po_lli — оба зарегистрировались на хабре сегодня, и пока комментировали только эту статью.

Scorobey Feb 26 2017 at 10:25

Для того чтобы дискутировать не достаточно быть знакомым с чат-ботом.Репертуар Вашего просмотра фильмов и объясняет Ваше не понимание смысла.Смотрите фильмы не только про чат-бота но и читайте книги про Незнайку (может это поможет). На Ваше " системное" наблюдение о регистрации на аккаунте сообщаю своё. В Вашем ответе нет информации по сути статьи, например предложений о изменении кода или постановки задачи, вместе этого Ваша сравнительная интерпретация лексики любимого Вами героя.

DaneSoul Feb 24 2017 at 13:36

Сейчас и Python и Perl — языки общего назначения, но Python исходно таким и создавался, а Perl исходно создавался для написания скриптов для команд Unix и для парсинга отчетов, то есть затачивался по-сути на работу с текстом.

DaneSoul Feb 24 2017 at 12:21

Хорошо бы добавить в статью о парсинге добавить хотя бы пару слов о Scrapy — это весьма востребованный фреймворк, который позволяет не только парсить отдельные страницы, но и обходить сайт как web-crawler

SomeOneWhoCares Feb 24 2017 at 12:54

Благодарю за совет. В будущих публикациях Scrapy будет использован, где я и объясню его использование.

x893 Feb 24 2017 at 13:09

Язык C для работы с байтами. C# для работы с резкостью.

+11

tagir_valeev Feb 24 2017 at 13:16

Java для работы с визиторами абстрактных фабрик синглтонов.

+11

x893 Feb 24 2017 at 13:23

Go для пешеходов и бегунов.

+11

qw1 Feb 24 2017 at 15:26

javascript для показа банеров и попапов.

Sulerad Feb 24 2017 at 13:30

Вместо page_count = page_count+[get_page_count(get_html(page_count[count]),page_count)] лучше использовать page_count.append(get_page_count(get_html(page_count[count]),page_count))

Вместо str(input()) лучше использовать raw_input(), т.к. input выполняет eval(raw_input()), что позволяет выполнять произвольный код.

Вместо count = count + 1 лучше использовать count += 1

Да и функцию get_html можно переписать с использованием requests, для того, чтобы убрать один import:

def get_html(url):
    r = requests.get(url)
    return r.text

Однако я не уверен, что ничего не сломается, давно requests не пользовался.

ИМХО можно переименовать переменную perehod на redirect, а переменную a (используется для записи файла) на f. Так будет понятнее, что это именно файл.

SomeOneWhoCares Feb 24 2017 at 13:31

Благодарю за совет, и дельные замечания. Впредь буду подходить к делу с большим рвением.

DaneSoul Feb 24 2017 at 13:40

Вместо str(input()) лучше использовать raw_input(), т.к. input выполняет eval(raw_input()), что позволяет выполнять произвольный код.

Это справедливо только для Python 2, в Python 3 нет raw_input(), его функцию выполняет input() и выполнять он код уже не позволяет.

Sulerad Feb 24 2017 at 13:48

Но если автор использует Python 3, то преобразование в строку излишне

drafterleo Feb 24 2017 at 18:35

Плюсанул статью за блок-схему алгоритма на иллюстрации. Но потом присмотрелся и с лёгкой печалью (эх, молодёжь...) осознал, что картинка в начале не имеет никакого отношения к последующему коду.

gsedometov Feb 25 2017 at 14:32

Кажется, автор путает понятия HTTP и URL. Да и обработку исключений использует не по назначению.

po_lli Feb 25 2017 at 20:02

Вижу, что автор только начинает углубляться в суть Python и программирования.
На мое усмотрения, очень неплохое начало! Не стоит набрасываться на пользователя с злобными комментариями и насмешками, лучше дать дельный совет в случаи неточностей или ошибок.
Автору спасибо большое и удачи в своих творениях! :)))

LingvoLena Mar 5 2017 at 15:17

Сбор аудио файлов с сайтов дает дополнительную возможность для их анализа. Предложенная автором реализация относительно простая, что делает статью полезной.Однако следует реализовать многопоточный метод для экономии ресурсов.

SomeOneWhoCares Mar 5 2017 at 15:23

Ваше предложение было реализовано в моей статье здесь.

Show the best of all time