Pull to refresh

Comments 33

Python — язык программирования, предназначенный для работы с текстом.

А можно ссылочку, откуда это? Вы точно с Perl не путаете?

Лучше бы автор "отжег" так: Python — язык программирования, предназначенный для парсинга сайтов

Здравствуйте, на сколько мне известно, Perl — язык программирования общего назначения, а Python специализируется на работе с текстом. Точнее ничего не могу сказать, так как, с Perl я не работаю. Если не прав, прошу меня извинить.
А вы статью, на которую дали ссылку в самом начале, не открывали?
Да вы, похоже, и с питоном особо не работали :))

Вот только некоторые применения питона:
— Бэк-енд в вебе
— Написание бизнес-логики при работе с БД
— Парсинг страниц
— EML-скрипты
— «Админские» скрипты
— Статистическая обработка данных
— Научные вычисления
— Простые десктоп-приложения с графическим интерфейсом
— Мобильные приложения
— И многое другое!
Здравствуйте, я догадывался что эта фраза вызовет негатив. И если я не прав в данном изречении, поправить плод нашего дискурса в лучшую сторону, это самый верный вариант. Не стоит насмехаться над кем-то, это никого не красит.
Я не хотел, чтобы это выглядело так, будто я весь такой на негативе злобно насмехаюсь над вами. Но всё-таки вы взялись писать статью о языке, о возможностях и применении которого имеете крайне поверхностное представление. И допускаете ляпы, которые кажутся очень забавными.
Имхо, в такой ситуации лёгкое подтрунивание в комментах — вполне адекватная реакция. Не надо на это болезненно реагировать.
Лучше, посмейтесь вместе с нами. Здоровая самоирония — это прекрасно.
*ETL-скрипты, конечно же. Спутал аббревиатуры :)

Да очень похоже что Вы знакомы с Python только на уровне читающего заголовки. Основным преимуществом Python является библиотека NLTK которая работает с корпусами текстов book, Brown и другими. Кроме того для тематического анализа текстовой информации есть ещё Gensim и BigArtm не говоря уже о модулях re,pyMorfologik, pymorphy2, LDA которые составляют почти половину библиотек Python. Поэтому воздержитесь от суждения о "ляпах" и не читайте только заголовки.

Основным преимуществом Python является библиотека NLTK


Это можно считать основным преимуществом только для людей, работающих в области лингвистики. Однако же область применения питона не только не ограничивается лингвистикой, но и на самом деле в основном находится за её пределами.

У питона невероятно большое количество библиотек на все случаи жизни!

Если следовать вашей логике, то каждый человек мог бы назвать своё основное преимущество питона:
— веб-программист назвал бы Django, Flask или Pyramid
— тот, кто работает с базами назвал бы sqlalchemy и alembic
— учёный назвал бы scipy
— Data Scintist назвал бы scikit-learn или TensorFlow
а ведь ещё есть множество библиотек для создания игр, работы с аудио и графикой, фреймворки для мобильных приложений и ещё много чего.

Так что фраза «Питон — это язык для работы с текстом» — однозначно ляп.

О чем идёт речь в статье об обработке текстовых текстовых данных. Руководствуясь Вашей же логикой можно утверждать что для этой задачи Pythoon лучший для обработки текстов такого же мнения и думаю известный Вам датчанин. А создатель знает для чего он создавал Python.

Вы этот комментарий скриптом что-ли сгенерировали?
Вообще же невозможно понять ту мысль, которую вы в него вложили, если она там вообще есть.

Создатель языка — голландец, а не датчанин.
И он никогда не говорил, что питон — специализированный язык для обработке текстов. Если я ошибаюсь, приведите ссылку на цитату.
Создатели питона делали его как универсальный язык, в него не было заложено никакого специального инструментария для работы с текстами. Все библиотеки, которые вы назвали — сторонние, созданы совсем другими людьми. Кроме модуля «re», который вполне вписывается в концепцию языка универсального назначения.

В таком объёме как Python с корпусами не работает ни один язык программирования — ссылка для ознакомления https://ru.wikipedia.org/wiki/Natural_Language_Toolkit. Вот книга которая стала бестселлером -Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. — O'Reilly Media, 2009. — ISBN 0-596-51649-5… Вот ссылка из статьи -задача, которая перед нами стоит — скачивание музыкальных произведений с сайта предоставляющего такую возможность. Использовать будем язык-программирования Python.Где здесь утверждение которое Вы назвали "ляпом". Нет здесь никакого "ляпа". Что Вы пытаетесь доказать — что Python имеет много модулей — это так, ознакомитесь http://www.lfd.uci.edu/~gohlke/pythonlibs/#pycurl — Вы перечислили далеко не все. Автор статьи и не утверждал что Python только для анализа текста. Поэтому не надо разбрасываться "ляпами'/ Вашее утверждение — и на самом деле в основном находится за её пределами.лишено основания. А проверку датчанином Вы прошли. Но это единственное с чем можно согласиться. ,

NLTK была разработана через 10 лет после релиза самого Python.
СЕЙЧАС в статье нет ляпа, там исправленный текст, исходно там была формулировка, процитированная в первом сообщении этой ветки.

О чем говорит Ваша фраза -NLTK была разработана через 10 лет после релиза самого Python, она говорит о том что Вы не знаете что модуль NLTK постоянно совершенствуется вместе с корпусами совершенствоваться и Python. Например стоп- слова теперь в 3.4,3.5 можно получить
from nltk import *
from nltk.corpus import brown
stop_words= nltk.corpus.stopwords.words('english')
Многое изменилось например появился интерфейс PyQt5. PyCharm, И тот факт что релиз появился раньше говорит только о том что Python востребован именно для анализа контента на основе больших моделей, например Big Artm. Но я думаю, что сообществу нужно заняться не бесплодной критикой молодых авторов а подсказкой по улучшению кода. Думаю автор статьи ждёт от Вас именно этого.

Дискутировать с вами — всё равно, что с чат-ботом. Вроде бы предложения грамматически правильные, но полностью лишены смысла.

Кстати, забавно, что единственные два комментатора, которые сочли автора статьи несправедливо обиженным и кинулись защищать, — Scorobey и po_lli — оба зарегистрировались на хабре сегодня, и пока комментировали только эту статью.

Для того чтобы дискутировать не достаточно быть знакомым с чат-ботом.Репертуар Вашего просмотра фильмов и объясняет Ваше не понимание смысла.Смотрите фильмы не только про чат-бота но и читайте книги про Незнайку (может это поможет). На Ваше " системное" наблюдение о регистрации на аккаунте сообщаю своё. В Вашем ответе нет информации по сути статьи, например предложений о изменении кода или постановки задачи, вместе этого Ваша сравнительная интерпретация лексики любимого Вами героя.

Сейчас и Python и Perl — языки общего назначения, но Python исходно таким и создавался, а Perl исходно создавался для написания скриптов для команд Unix и для парсинга отчетов, то есть затачивался по-сути на работу с текстом.
Хорошо бы добавить в статью о парсинге добавить хотя бы пару слов о Scrapy — это весьма востребованный фреймворк, который позволяет не только парсить отдельные страницы, но и обходить сайт как web-crawler
Благодарю за совет. В будущих публикациях Scrapy будет использован, где я и объясню его использование.
Язык C для работы с байтами. C# для работы с резкостью.

Java для работы с визиторами абстрактных фабрик синглтонов.

Go для пешеходов и бегунов.
javascript для показа банеров и попапов.

Вместо page_count = page_count+[get_page_count(get_html(page_count[count]),page_count)] лучше использовать page_count.append(get_page_count(get_html(page_count[count]),page_count))


Вместо str(input()) лучше использовать raw_input(), т.к. input выполняет eval(raw_input()), что позволяет выполнять произвольный код.


Вместо count = count + 1 лучше использовать count += 1


Да и функцию get_html можно переписать с использованием requests, для того, чтобы убрать один import:


def get_html(url):
    r = requests.get(url)
    return r.text

Однако я не уверен, что ничего не сломается, давно requests не пользовался.


ИМХО можно переименовать переменную perehod на redirect, а переменную a (используется для записи файла) на f. Так будет понятнее, что это именно файл.

Благодарю за совет, и дельные замечания. Впредь буду подходить к делу с большим рвением.
Вместо str(input()) лучше использовать raw_input(), т.к. input выполняет eval(raw_input()), что позволяет выполнять произвольный код.


Это справедливо только для Python 2, в Python 3 нет raw_input(), его функцию выполняет input() и выполнять он код уже не позволяет.

Но если автор использует Python 3, то преобразование в строку излишне

Плюсанул статью за блок-схему алгоритма на иллюстрации. Но потом присмотрелся и с лёгкой печалью (эх, молодёжь...) осознал, что картинка в начале не имеет никакого отношения к последующему коду.

Кажется, автор путает понятия HTTP и URL. Да и обработку исключений использует не по назначению.

Вижу, что автор только начинает углубляться в суть Python и программирования.
На мое усмотрения, очень неплохое начало! Не стоит набрасываться на пользователя с злобными комментариями и насмешками, лучше дать дельный совет в случаи неточностей или ошибок.
Автору спасибо большое и удачи в своих творениях! :)))
Сбор аудио файлов с сайтов дает дополнительную возможность для их анализа. Предложенная автором реализация относительно простая, что делает статью полезной.Однако следует реализовать многопоточный метод для экономии ресурсов.
Sign up to leave a comment.

Articles