Comments 33
Python — язык программирования, предназначенный для работы с текстом.
А можно ссылочку, откуда это? Вы точно с Perl не путаете?
Лучше бы автор "отжег" так: Python — язык программирования, предназначенный для парсинга сайтов
Вот только некоторые применения питона:
— Бэк-енд в вебе
— Написание бизнес-логики при работе с БД
— Парсинг страниц
— EML-скрипты
— «Админские» скрипты
— Статистическая обработка данных
— Научные вычисления
— Простые десктоп-приложения с графическим интерфейсом
— Мобильные приложения
— И многое другое!
Имхо, в такой ситуации лёгкое подтрунивание в комментах — вполне адекватная реакция. Не надо на это болезненно реагировать.
Лучше, посмейтесь вместе с нами. Здоровая самоирония — это прекрасно.
Да очень похоже что Вы знакомы с Python только на уровне читающего заголовки. Основным преимуществом Python является библиотека NLTK которая работает с корпусами текстов book, Brown и другими. Кроме того для тематического анализа текстовой информации есть ещё Gensim и BigArtm не говоря уже о модулях re,pyMorfologik, pymorphy2, LDA которые составляют почти половину библиотек Python. Поэтому воздержитесь от суждения о "ляпах" и не читайте только заголовки.
Основным преимуществом Python является библиотека NLTK
Это можно считать основным преимуществом только для людей, работающих в области лингвистики. Однако же область применения питона не только не ограничивается лингвистикой, но и на самом деле в основном находится за её пределами.
У питона невероятно большое количество библиотек на все случаи жизни!
Если следовать вашей логике, то каждый человек мог бы назвать своё основное преимущество питона:
— веб-программист назвал бы Django, Flask или Pyramid
— тот, кто работает с базами назвал бы sqlalchemy и alembic
— учёный назвал бы scipy
— Data Scintist назвал бы scikit-learn или TensorFlow
а ведь ещё есть множество библиотек для создания игр, работы с аудио и графикой, фреймворки для мобильных приложений и ещё много чего.
Так что фраза «Питон — это язык для работы с текстом» — однозначно ляп.
О чем идёт речь в статье об обработке текстовых текстовых данных. Руководствуясь Вашей же логикой можно утверждать что для этой задачи Pythoon лучший для обработки текстов такого же мнения и думаю известный Вам датчанин. А создатель знает для чего он создавал Python.
Вообще же невозможно понять ту мысль, которую вы в него вложили, если она там вообще есть.
Создатель языка — голландец, а не датчанин.
И он никогда не говорил, что питон — специализированный язык для обработке текстов. Если я ошибаюсь, приведите ссылку на цитату.
Создатели питона делали его как универсальный язык, в него не было заложено никакого специального инструментария для работы с текстами. Все библиотеки, которые вы назвали — сторонние, созданы совсем другими людьми. Кроме модуля «re», который вполне вписывается в концепцию языка универсального назначения.
В таком объёме как Python с корпусами не работает ни один язык программирования — ссылка для ознакомления https://ru.wikipedia.org/wiki/Natural_Language_Toolkit. Вот книга которая стала бестселлером -Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. — O'Reilly Media, 2009. — ISBN 0-596-51649-5… Вот ссылка из статьи -задача, которая перед нами стоит — скачивание музыкальных произведений с сайта предоставляющего такую возможность. Использовать будем язык-программирования Python.Где здесь утверждение которое Вы назвали "ляпом". Нет здесь никакого "ляпа". Что Вы пытаетесь доказать — что Python имеет много модулей — это так, ознакомитесь http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl — Вы перечислили далеко не все. Автор статьи и не утверждал что Python только для анализа текста. Поэтому не надо разбрасываться "ляпами'/ Вашее утверждение — и на самом деле в основном находится за её пределами.лишено основания. А проверку датчанином Вы прошли. Но это единственное с чем можно согласиться. ,
СЕЙЧАС в статье нет ляпа, там исправленный текст, исходно там была формулировка, процитированная в первом сообщении этой ветки.
О чем говорит Ваша фраза -NLTK была разработана через 10 лет после релиза самого Python, она говорит о том что Вы не знаете что модуль NLTK постоянно совершенствуется вместе с корпусами совершенствоваться и Python. Например стоп- слова теперь в 3.4,3.5 можно получить
from nltk import *
from nltk.corpus import brown
stop_words= nltk.corpus.stopwords.words('english')
Многое изменилось например появился интерфейс PyQt5. PyCharm, И тот факт что релиз появился раньше говорит только о том что Python востребован именно для анализа контента на основе больших моделей, например Big Artm. Но я думаю, что сообществу нужно заняться не бесплодной критикой молодых авторов а подсказкой по улучшению кода. Думаю автор статьи ждёт от Вас именно этого.
Кстати, забавно, что единственные два комментатора, которые сочли автора статьи несправедливо обиженным и кинулись защищать, — Scorobey и po_lli — оба зарегистрировались на хабре сегодня, и пока комментировали только эту статью.
Для того чтобы дискутировать не достаточно быть знакомым с чат-ботом.Репертуар Вашего просмотра фильмов и объясняет Ваше не понимание смысла.Смотрите фильмы не только про чат-бота но и читайте книги про Незнайку (может это поможет). На Ваше " системное" наблюдение о регистрации на аккаунте сообщаю своё. В Вашем ответе нет информации по сути статьи, например предложений о изменении кода или постановки задачи, вместе этого Ваша сравнительная интерпретация лексики любимого Вами героя.
Вместо page_count = page_count+[get_page_count(get_html(page_count[count]),page_count)]
лучше использовать page_count.append(get_page_count(get_html(page_count[count]),page_count))
Вместо str(input())
лучше использовать raw_input()
, т.к. input выполняет eval(raw_input())
, что позволяет выполнять произвольный код.
Вместо count = count + 1
лучше использовать count += 1
Да и функцию get_html можно переписать с использованием requests, для того, чтобы убрать один import:
def get_html(url): r = requests.get(url) return r.text
Однако я не уверен, что ничего не сломается, давно requests не пользовался.
ИМХО можно переименовать переменную perehod
на redirect
, а переменную a
(используется для записи файла) на f
. Так будет понятнее, что это именно файл.
Вместо str(input()) лучше использовать raw_input(), т.к. input выполняет eval(raw_input()), что позволяет выполнять произвольный код.
Это справедливо только для Python 2, в Python 3 нет raw_input(), его функцию выполняет input() и выполнять он код уже не позволяет.
Кажется, автор путает понятия HTTP и URL. Да и обработку исключений использует не по назначению.
На мое усмотрения, очень неплохое начало! Не стоит набрасываться на пользователя с злобными комментариями и насмешками, лучше дать дельный совет в случаи неточностей или ошибок.
Автору спасибо большое и удачи в своих творениях! :)))
Скачивание аудио с сайта mail.ru