<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
<channel>
	<title>Хабрахабр / Комментарии к посту «Определяем «неправильные» слова при борьбе со спамом» в блоге «Спам (и антиспам)»</title>
	<link>http://habrahabr.ru/rss/post/86303/</link>
	<description><![CDATA[Новые комментарии к посту «Определяем «неправильные» слова при борьбе со спамом» в блоге «Спам (и антиспам)»]]></description>
	<language>ru</language>
	<managingEditor>editor@habrahabr.ru</managingEditor>
	<generator>habrahabr.ru</generator>
	<pubDate>Sat, 11 Feb 2012 12:31:58 GMT</pubDate>
	<lastBuildDate></lastBuildDate>
	<image>
		<link>http://habrahabr.ru/</link>
		<url>http://habrahabr.ru/i/logo.gif</url>
		<title>Хабрахабр</title>
	</image>
	

	
	
	
	
	
		
	
		<item>
			<title>05.03.2010 09:20:21 samodum</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2586029</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2586029</link>
			<description><![CDATA[Ещё немного изменил строчки:<br/>
string Rus = «АаВЕеКкМНОоРрСсТуХхЗО1тиа@пь930»;<br/>
string Eng = «AaBEeKkMHOoPpCcTyXx30imu@anbgEo»;<br/>
<br/>
<img src="http://img39.imageshack.us/img39/9576/corrector2.png"/>]]></description>
			<pubDate>Fri, 05 Mar 2010 09:20:21 GMT</pubDate>
			<author>samodum</author>
		</item>
	

	
		<item>
			<title>04.03.2010 22:21:18 bashor</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2584774</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2584774</link>
			<description><![CDATA[Вам спасибо, а парсер лох (: <a href="http://j.mp/likess">j.mp/likess</a> )]]></description>
			<pubDate>Thu, 04 Mar 2010 22:21:18 GMT</pubDate>
			<author>bashor</author>
		</item>
	

	
		<item>
			<title>04.03.2010 20:29:29 stas_agarkov</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2584419</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2584419</link>
			<description><![CDATA[за этот файл похожих символов юникода два года назад я получил 500 руб. от своего друга<br/>
<a href="http://narod.ru/disk/18479522000/">narod.ru/disk/18479522000/</a>!likes.xml.html]]></description>
			<pubDate>Thu, 04 Mar 2010 20:29:29 GMT</pubDate>
			<author>stas_agarkov</author>
		</item>
	

	
		<item>
			<title>04.03.2010 18:06:50 seriyPS</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2583738</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2583738</link>
			<description><![CDATA[Кодировки???<br/>
Уж не языка-ли?]]></description>
			<pubDate>Thu, 04 Mar 2010 18:06:50 GMT</pubDate>
			<author>seriyPS</author>
		</item>
	

	
		<item>
			<title>04.03.2010 13:36:04 AgentSmith</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2582377</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2582377</link>
			<description><![CDATA[Я ещё проще придумал. Если в слове происходит смена кодировки, то это спам!]]></description>
			<pubDate>Thu, 04 Mar 2010 13:36:04 GMT</pubDate>
			<author>AgentSmith</author>
		</item>
	

	
		<item>
			<title>04.03.2010 13:16:25 Pechkin1007</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2582254</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2582254</link>
			<description><![CDATA[Сделай просто массив, а не стринг.]]></description>
			<pubDate>Thu, 04 Mar 2010 13:16:25 GMT</pubDate>
			<author>Pechkin1007</author>
		</item>
	

	
		<item>
			<title>04.03.2010 12:41:04 ibnteo</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2582044</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2582044</link>
			<description><![CDATA[Можно еще считать слова с подменой букв как заведомо спамерские.]]></description>
			<pubDate>Thu, 04 Mar 2010 12:41:04 GMT</pubDate>
			<author>ibnteo</author>
		</item>
	

	
		<item>
			<title>04.03.2010 12:12:17 samodum</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581885</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581885</link>
			<description><![CDATA[Вообще, надо бы расширить функцию на работу с двусимвольными комбинациями.<br/>
Например, «bl» = «Ы», &quot;/\&quot; — «Л»]]></description>
			<pubDate>Thu, 04 Mar 2010 12:12:17 GMT</pubDate>
			<author>samodum</author>
		</item>
	

	
		<item>
			<title>04.03.2010 12:05:19 Pechkin1007</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581856</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581856</link>
			<description><![CDATA[Добавил тему в избранное чтобы был справочник сопоставления букв)]]></description>
			<pubDate>Thu, 04 Mar 2010 12:05:19 GMT</pubDate>
			<author>Pechkin1007</author>
		</item>
	

	
		<item>
			<title>04.03.2010 11:00:28 AgentSmith</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581507</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581507</link>
			<description><![CDATA[Спамеры такие спамеры]]></description>
			<pubDate>Thu, 04 Mar 2010 11:00:28 GMT</pubDate>
			<author>AgentSmith</author>
		</item>
	

	
		<item>
			<title>04.03.2010 10:44:02 warpc</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581425</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581425</link>
			<description><![CDATA[Зря вы так на тему спам-фильтров: наивный байсековский фильтр и фильтр на основе метода Фишера (SmapBayes, подключаемый к Outlook как раз на основе Фишера) могут и используют признак смешение букв из разных алфавитов как признак спама, хотя затем можно нормализовывать текст по описанному выше методу и подвергать другим тестам: ключевые слова и словосочетания, регистр слов (к примеру, все буквы в верхнем регистре и таких «кричащих» слов множество), анализ метаинформации: кто отправил письмо, откуда и т.д… Если же сразу нормализовывать текст, то можно потерять множество признаков, по которым мог бы обнаружен спам. <br/>
<br/>
А за наглядный пример нормализации текста спасибо. ]]></description>
			<pubDate>Thu, 04 Mar 2010 10:44:02 GMT</pubDate>
			<author>warpc</author>
		</item>
	

	
		<item>
			<title>04.03.2010 10:32:49 samodum</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581378</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581378</link>
			<description><![CDATA[Добавил «1тиа@», «imu@a» и убрал k/к из 100%-алфавита.<br/>
И обновил скриншот]]></description>
			<pubDate>Thu, 04 Mar 2010 10:32:49 GMT</pubDate>
			<author>samodum</author>
		</item>
	

	
		<item>
			<title>04.03.2010 10:19:14 Pechkin1007</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581328</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581328</link>
			<description><![CDATA[Нигерийский спам самый нигерийский спам в спаме)]]></description>
			<pubDate>Thu, 04 Mar 2010 10:19:14 GMT</pubDate>
			<author>Pechkin1007</author>
		</item>
	

	
		<item>
			<title>04.03.2010 10:18:03 Pechkin1007</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581323</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581323</link>
			<description><![CDATA[k и к как и З и 3 точно так же бросаются. Однакож отмечены в сабже. Зато тот кто будет машинально копировать из поста будет иметь «большую» защиту только не знаю от чего)]]></description>
			<pubDate>Thu, 04 Mar 2010 10:18:03 GMT</pubDate>
			<author>Pechkin1007</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:58:59 bear11</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581238</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581238</link>
			<description><![CDATA[Кстати, отсеять практически весь «нигерийский» спам можно всего лишь по одному (или трем) ключевым словам, практически не встречающимися в нормальных текстах — это «kin» или «next of kin» (наследник).]]></description>
			<pubDate>Thu, 04 Mar 2010 09:58:59 GMT</pubDate>
			<author>bear11</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:57:32 Dellirium</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581230</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581230</link>
			<description><![CDATA[Спамеры вконтакте спокойно используют «k» вместо «к», и не стесняются.]]></description>
			<pubDate>Thu, 04 Mar 2010 09:57:32 GMT</pubDate>
			<author>Dellirium</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:52:55 samodum</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581217</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581217</link>
			<description><![CDATA[Можете сами дополнить словарь по своему усмотрению. <br/>
Ещё подскажу: «m» похожа на маленькую русскую «т», но это, как и «6»-«б» бросается в глаза.]]></description>
			<pubDate>Thu, 04 Mar 2010 09:52:55 GMT</pubDate>
			<author>samodum</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:47:12 Pechkin1007</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581195</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581195</link>
			<description><![CDATA[А его друг другой капитан когда присмотрелся сказал что 6 похоже на русскую «б»]]></description>
			<pubDate>Thu, 04 Mar 2010 09:47:12 GMT</pubDate>
			<author>Pechkin1007</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:45:43 leshaogonkov</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581190</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581190</link>
			<description><![CDATA[Помоему наиболее разумное решение. Как минимум внимания таким письмам должно больше уделяться.]]></description>
			<pubDate>Thu, 04 Mar 2010 09:45:43 GMT</pubDate>
			<author>leshaogonkov</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:41:33 samodum</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581173</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581173</link>
			<description><![CDATA[Спасибо, поправил.]]></description>
			<pubDate>Thu, 04 Mar 2010 09:41:33 GMT</pubDate>
			<author>samodum</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:40:44 _Felix_</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581169</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581169</link>
			<description><![CDATA[Вряд ли кто-то серьезно рассчитывает создать абсолютный фильтр. Спасает так называемый «барьер» — небольшие усилия помогают отстеять огромную массу любителей-спамеров. Дальше повышать барьер сложнее и процент отсеянных спамеров увеличивается намного медленнее. Главное — решить, где остановиться.<br/>
<br/>
На примере: фильтровал я как-то комментарии на сайте развлекательной тематики. Простой список стоп-слов позволили заблокировать процентов 90 нарушителей. После того как я перед проверкой стал удалять все символы кроме букв и цифр (тем самым отсекая варианты типа «В_И_А_Г_Р_А» или «Виа(гра)»), стало отсеиваться 98%. Остальные проверки были совсем специфическими и добавлялись на конкретные случаи, под настроение. В принципе, это — вариант, на котором можно остановится, все остальное пока проще изредка вычищать вручную. ]]></description>
			<pubDate>Thu, 04 Mar 2010 09:40:44 GMT</pubDate>
			<author>_Felix_</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:32:24 tehnolog</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581141</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581141</link>
			<description><![CDATA[спасибо. я сам хотел написать такой код, но руки не доходили. На моей работе это нужно не для спама, а для проверки написания товара. У нас блондинки умудряются завести в базе 1С товар вперемежку. Например, есть модель CT-404 (буквы англ.), а заводят русскими. А если CN-102, то первую букву напишут русской, а потом, так как в русской раскладке буквы N нет, то переключаются на английскую раскладку и вводят уже второй символ. Бардак в базе был еще тот.]]></description>
			<pubDate>Thu, 04 Mar 2010 09:32:24 GMT</pubDate>
			<author>tehnolog</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:24:11 DarkSilence</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581107</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581107</link>
			<description><![CDATA[Хм, а почему бы не забраковывать письма в которых есть более некоторого количества слов, в которых используется вперемешку латинские и русские буквы?<br/>
Собственно сам факт того что в слове из 5 букв русского алфавита есть две буквы из латинского уже определяет то что слово — паразит.]]></description>
			<pubDate>Thu, 04 Mar 2010 09:24:11 GMT</pubDate>
			<author>DarkSilence</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:23:24 Pechkin1007</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581103</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581103</link>
			<description><![CDATA[Капитан компилятор сказал что у переменной string OnlyRu в конце не стоит &quot;;&quot;]]></description>
			<pubDate>Thu, 04 Mar 2010 09:23:24 GMT</pubDate>
			<author>Pechkin1007</author>
		</item>
	

	
		<item>
			<title>04.03.2010 09:14:09 amosk</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581071</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581071</link>
			<description><![CDATA[К сожалению, это только один из многих частных случаев.<br/>
В_И_А_Г_Р_А<br/>
Виа(гра)<br/>
ВИ/\ГР/\<br/>
Не говоря уже о том, что много спама валит без прямого указания там ключевых слов.<br/>
<br/>
Пока компы не научатся понимать смысл текста (читай: пока не будет создан ИИ), спамеры всегда смогут придумать как обойти подобные фильтры.<br/>
<br/>
Но все равно спасибо, что занимаетесь этой темой. Надо держать спамеров в тонусе :)<br/>
 ]]></description>
			<pubDate>Thu, 04 Mar 2010 09:14:09 GMT</pubDate>
			<author>amosk</author>
		</item>
	

	
		<item>
			<title>04.03.2010 08:59:21 Borro</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2581004</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2581004</link>
			<description><![CDATA[А еще в фильтр комментов к разным блогам можно!<br/>
На php, как я понял, портировать ее просто.]]></description>
			<pubDate>Thu, 04 Mar 2010 08:59:21 GMT</pubDate>
			<author>Borro</author>
		</item>
	

	
		<item>
			<title>04.03.2010 08:27:08 vladon</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2580882</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2580882</link>
			<description><![CDATA[можно написать PS-скрипт для Exchange, например.<br/>
]]></description>
			<pubDate>Thu, 04 Mar 2010 08:27:08 GMT</pubDate>
			<author>vladon</author>
		</item>
	

	
		<item>
			<title>04.03.2010 07:05:36 bondbig</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2580593</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2580593</link>
			<description><![CDATA[Что ж, спасибо за идею.]]></description>
			<pubDate>Thu, 04 Mar 2010 07:05:36 GMT</pubDate>
			<author>bondbig</author>
		</item>
	

	
		<item>
			<title>04.03.2010 07:02:40 samodum</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2580582</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2580582</link>
			<description><![CDATA[Для большей применимости — я дал код функции. Хотите, в консоль делайте, хотите — в dll, хотите — переводите в *nix, на питон, на php… Я просто показал идею.<br/>
Оконный вид программы с подсветкой слов — исключительно для наглядности работы функции.]]></description>
			<pubDate>Thu, 04 Mar 2010 07:02:40 GMT</pubDate>
			<author>samodum</author>
		</item>
	

	
		<item>
			<title>04.03.2010 06:59:12 bondbig</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2580571</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2580571</link>
			<description><![CDATA[для большей применимости в реальной жизни, программу надо бы сделать консольной. И под *nix порт нужен, т.к. большинство релеев крутится под *nix.<br/>
]]></description>
			<pubDate>Thu, 04 Mar 2010 06:59:12 GMT</pubDate>
			<author>bondbig</author>
		</item>
	

	
		<item>
			<title>04.03.2010 06:57:01 kaasnake</title>
			<guid isPermaLink="true">http://habrahabr.ru/blogs/spam/86303/#comment_2580564</guid>
			<link>http://habrahabr.ru/blogs/spam/86303/#comment_2580564</link>
			<description><![CDATA[Оно конечно хорошо, но как это использовать в реальной жизни? <br/>
В голову приходит только написание какого-нибудь плагина для аутглюка, который будет делать предварительное преобразование неправильных слов в правильные во входящих письмах до срабатывания фильтра на ключевые слова…<br/>
]]></description>
			<pubDate>Thu, 04 Mar 2010 06:57:01 GMT</pubDate>
			<author>kaasnake</author>
		</item>
	

	
</channel>
</rss>

