?

Log in

No account? Create an account
 
 
11 January 2017 @ 06:23 am
Brain Cancer in NeuralCrawler  
Today Andrey and I discovered that NeuralCrawler we created - got brain cancer: Out of 844,467 pages - 99.5% is useless junk from 2 sub-domains: "boystown.giftlegacy.com" and "boystowngift.org"

So far we attribute the cause of that cancer spread to a couple of bugs:
1) Creating extra links with every redirect (unfortunately problematic domains generate links with random sessionId and then redirect from one to another).
2) Not deleting old page links after reparsing page content.
 
 
 
Сисадмин-любительulrith on January 11th, 2017 01:34 pm (UTC)
This cancer is perfectly curable though
Dennis Gorelikdennisgorelik on January 11th, 2017 04:48 pm (UTC)
Yes, it is curable.

But it took us several days to detect that NeuralCrawler actually has brain cancer.
provokatorzprovokatorz on January 12th, 2017 12:59 am (UTC)
Старо как Интернет ))
Я на заре нулевых так поймал одну поисковую систему (альтависта, кажется).

При заходе на любую ссылку на сайте генерилась страница, которая содержала кучу ссылок на этот же домен и произвольное содержание, где часто упоминалось слово "play". Система считала за сутки несколько десятков тысяч "страниц".

5 дней на первом месте по запросу "play" были мои :). Потом бан вечный.
Dennis Gorelikdennisgorelik on January 12th, 2017 01:13 am (UTC)
Re: Старо как Интернет ))
Да - похожая история.
Хотя на подобных случайно сгенерированных ссылках наш NeuralCrawler, вероятно бы не попался, потому что рейтинг таких ссылок был бы довольно низкий.

Но у нас баг связанный с redirect...