Предложения по улучшению алгоритма проверки

Работа в интернете Заказчику Магазин статей Сервис Партнёрская программа Форум Помощь и поддержка Создать заказ

Все форумы

Новые сообщения

Адвего

Форум

Все форумы

Адвего

Обсуждение Advego Plagiatus

Обсуждение Advego Plagiatus — Форум Адвего

боковая панель

Адвего / Обсуждение Advego Plagiatus

Предложения по улучшению алгоритма проверки

У меня такое предложение по улучшению алгоритма проверки.
Я обратил внимание на следующий момент:
Если на проверяемой странице находится стандартная календарная сетка , например :

календарь новости октябрь 2010 пн вт ср чт пт сб вс 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 сентябрь 2010

то программа проходит по сотне сайтов и находит совпадение с каждым сайтом , что явно уменьшает результирующий процент уникальности.
Аналогичная ситуация обстоит с так называемыми архивными ссылками , например :

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

Ясно дело - что совпадение такого цифрового ряда никак нельзя считать пиратством / неуникальностью !!!
Можно ли добавить в алгоритм программы пропуска таких стандартных цифровых блоков -
чтобы проверять на уникальность чисто текст , а не цифровые ряды календарей !!!

Или я ошибаюсь и это уже заложено в алгоритме ?
Хотелось бы услышать ответ от разработчиков такой замечательной программы !

Нравится 0 / Не нравится 0

Пожаловаться

Написал: DELETED , 04.10.2010 в 03:04

В форуме: Обсуждение Advego Plagiatus

Комментариев: 8

Комментарии

Написать комментарий Последние комментарии Участники / 4 Все комментарии

За 0 / Против 0

Пожаловаться

DELETED написала 04.10.2010 в 03:06

Проверяют текст, а не страницу...

#1 Ответить /Цитировать

За 0 / Против 0

Пожаловаться

DELETED написал 04.10.2010 в 03:11

Однако я хотел бы заметить , что я наблюдаю обратное.
Проверяю ресурс на уникальность , прога показывает , что совпадение по 7 % идет с целой кучей сайтов ,
однако при ручном заходе на эти сайты поиск по словам не находит одинакового текста , зато календарные сетки на главной странице у таких сайтов с 7 % совпадений у всех есть.

Убедите меня в том , что я не прав ...

Наблюдал такую картину многократно ...

#2 Ответить /Цитировать / Скрыть ветку

За 0 / Против 0

Пожаловаться

DELETED написала 04.10.2010 в 03:13 в ответ на #2

Просто Вы уточняйте, какой программой и что проверяете... Тут, как правило, обсуждается проверка текстов Плагиатусом:)

#3 Ответить /Цитировать

За 0 / Против 0

Пожаловаться

DELETED написал 04.10.2010 в 03:27

Про нее и разговор - версия 1.1.0.49

#4 Ответить /Цитировать / Скрыть ветку

За 0 / Против 0

Пожаловаться

grv написал 04.10.2010 в 04:15 в ответ на #4

Можно проверять одни тексты, а не весь ресурс полностью. И не будет никаких проблем с календарными сетками и прочими стандартными и нестандартными блоками.

#5 Ответить /Цитировать

За 0 / Против 0

Пожаловаться

DELETED написал 04.10.2010 в 13:42

О включении "неявной" логики в работу программы мы подумаем в будущих версиях.
На сегодняшний день Вы можете самостоятельно удалить смущающие
Вас фрагменты исходного документа.

#6 Ответить /Цитировать

За 0 / Против 0

Пожаловаться

DELETED написал 04.10.2010 в 13:47

То есть - насколько я понимаю - пока Вы предлагаете делать так :
1 - Сканируем наш сайт
2 - Удаляем вручную все цифровые сетки
3 - Запускаем сканирование на уникальность

Я правильно понимаю ?

#7 Ответить /Цитировать / Скрыть ветку