Как нам обустроить заливку KIT-4063

Как нам обустроить заливку KIT-4063
KIT-4063 - это 4063 книги из AldLit, которые в Либрусеке имеются, но только сделанные LibRusEc kit (и с тех пор не проапгрейденные).

При имеющемся коде заливочного скрипта (file author.inc, function AddFileToLibrusec) всем этим 4063 книгам при заливке будут обнаружены дубли, конфликт которых придется разрешать вручную. Это очень много кликов. За один день вручную столько не сделать, и получится, что эта заливка забьет ленту новостей на несколько дней в лучшем случае. Да и лень делать вручную то, что можно отдать машине, она железная.

Поэтому я хочу попросить Ларина внести изменения в заливочный скрипт. Точный текст изменения я сформирую попозже, а пока смысл этого изменения.

Как работает заливочный скрипт сейчас:
После того, как новая книга уже добавлена, скрипт ищет такой-же-тайтл AND такой-же-автор (только тайтл и автор, больше ничего не сравнивается), и если находит - предлагает разрешить конфликт дублей вручную. (file author.inc, function AddFileToLibrusec lines 609-610)

Как я предлагаю:
До момента нахождения дубля все то же самое. Но потом не сразу предложение разрешить конфликт дублей вручную, а предварительно две проверки. Такие:

1. Автоматический апгрейд той же книги

Если
   DOCUMENT-INFO/ID новой и старой книги одинаковы AND DOCUMENT-INFO/VERSION новой книги больше, чем старой
То
   Заменить старую книгу на новую автоматически.

2. Автоматическая замена книги, сделанной LibRusEc kit
Если
   DOCUMENT-INFO/ID старой книги имеет форму ("ID"="... ... .. ..:..:.. 2013" OR "ID"="... ... .. ..:..:.. 2007") AND DOCUMENT-INFO/VERSION новой книги больше, чем старой
То
   Заменить старую книгу на новую автоматически.

Если ни одна из этих проверок не выполняется - то, как и раньше, предложение разрешить конфликт дублей вручную.

Вопрос: не создаст ли такое изменение каких-либо подводных камней?

-----------
("ID"="... ... .. ..:..:.. 2013" OR "ID"="... ... .. ..:..:.. 2007") - это признак книги сделанной LibRusEc kit и с тех пор не проапгрейденной. Взято отсюда: http://www.fictionbook.org/forum/viewtopic.php?p=34606&sid=ce80b4a0e032856378070ac1bcf5dfd6#34606

-----------
Что такое AldLit см. тут http://lib.rus.ec/node/115649 или ещё дальше тут http://lib.rus.ec/node/111496

Комментарии

Текст предлагаемого изменения в author.inc, прошу знающих php глянуть на предмет косяков.

Old (file author.inc, function AddFileToLibrusec lines 609-610):

  if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
    $r .= "<p>Кажется, нашли дубля. Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid  target=_blank>Дубль: $title</a>";

New (вариант при котором автоматическая замена работает для всех):
  if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
  {
      $r .= "<p>Кажется, нашли дубля.";
      //
      // $b      - new book Librusec-book-number, not the FICTIONBOOK/DESCRIPTION/DOCUMENT-INFO/ID
      // $dublid - dubl Librusec-book-number
      // $id  - new book document-info-ID (was set earlier)
      // $ver - new book document-info-version (was set earlier)
      //
      // Get document-info-ID and version for dubl
      $dubldocid = Sel ("Id FROM libbook WHERE BookId = $dublid"); // ya ne uveren v sintaksise
      $dublver =  Sel ("Ver FROM libbook WHERE BookId = $dublid");
      // Automatic upgrade of the same book
      if( ($dubldocid==$id) && (1.0*$ver > 1.0*$dublver) ){
          $r .= joinbooks($b,$dublid,$title);
          return $r . "<hr>\n";
      };
      // Automatic upgrade of the old "LibRusEc kit" book
      //                            012345678901234567890123
      // U libruseka dva tipa id - "Tue Jun 12 03:34:15 2007" i "Mon Jun 10 19:57:46 2013"
      // Kljuchevoe - probely s godom.
      //        012345678901234567890123
      // ("ID"="... ... .. ..:..:.. 2013" OR "ID"="... ... .. ..:..:.. 2007")
      $i = strrpos($dubldocid," 20");
      if( ($i==19) && (1.0*$ver > 1.0*$dublver) ){
          $r .= joinbooks($b,$dublid,$title);
          return $r . "<hr>\n";
      };
      // No automatic resolution, resolve conflict manually
      $r .= " Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid  target=_blank>Дубль: $title</a>";
  };

New (вариант при котором автоматическая замена работает только для библиотекарей):

  if ($dublid = Sel ("BookId FROM libbook JOIN libavtor USING (BookId) WHERE Title="$title" AND AvtorId = $a AND BookID != $b AND NOT Deleted"))
  {
      $r .= "<p>Кажется, нашли дубля.";
      if (user_access('библиотекарь'))
      {
            //
            // $b      - new book Librusec-book-number, not the FICTIONBOOK/DESCRIPTION/DOCUMENT-INFO/ID
            // $dublid - dubl Librusec-book-number
            // $id  - new book document-info-ID (was set earlier)
            // $ver - new book document-info-version (was set earlier)
            //
            // Get document-info-ID and version for dubl
            $dubldocid = Sel ("Id FROM libbook WHERE BookId = $dublid"); // ya ne uveren v sintaksise
            $dublver =  Sel ("Ver FROM libbook WHERE BookId = $dublid");
            // Automatic upgrade of the same book
            if( ($dubldocid==$id) && (1.0*$ver > 1.0*$dublver) ){
                $r .= joinbooks($b,$dublid,$title);
                return $r . "<hr>\n";
            };
            // Automatic upgrade of the old "LibRusEc kit" book
            //                            012345678901234567890123
            // U libruseka dva tipa id - "Tue Jun 12 03:34:15 2007" i "Mon Jun 10 19:57:46 2013"
            // Kljuchevoe - probely s godom.
            //        012345678901234567890123
            // ("ID"="... ... .. ..:..:.. 2013" OR "ID"="... ... .. ..:..:.. 2007")
            $i = strrpos($dubldocid," 20");
            if( ($i==19) && (1.0*$ver > 1.0*$dublver) ){
                $r .= joinbooks($b,$dublid,$title);
                return $r . "<hr>\n";
            };
      }; // if библиотекарь
      // No automatic resolution, resolve conflict manually
      $r .= " Ткните в него для разрешения конфликта. <a href=/b/$b/join/$dublid  target=_blank>Дубль: $title</a>";
  };

Да, до завтра жду замечаний-предложений, потом прошу Ларина внести изменение, и если он согласится - то кто не спрятался, я не виноват ;-)

Честно признаю, что я чайник. Поэтому и вопрос у меня скорее всего дурацкий. Но если можно я его задам. Не открывает ли это возможность для вредительства. Предположим кто-то берёт имеющийся у нас файл, текст в нём заменяет на некую абракадабру и затем заливает на ЛибРусЭк как апргрейженый. Автоматически старый файл с полным текстом заменяется на абракадабру. А если такое произойдёт в массовом порядке?

Вопрос точный и правильный. Я себе это так представляю: для того, чтобы проделать такую диверсию, нужно сделать много-много-кликов-на-одну-книгу. А откатывается это дело - одним кликом. Обнаружение и вовсе не представляет проблемы - новинки пасут почитай что все. Поэтому не думаю, что тут откроется много возможностей для вредительства.

Я тоже чайник в том смысле, что не разбираюсь в скриптах. Поэтому только замечу, что если скрипт будет изменен, надо сначала залить несколько книг и тщательно проверить, что получилось, а только потом заливать все. Насчет злоупотреблений и вредительства - это тоже возможно, при автоматическом апдейте можно представить себе бота, который будет скачивать книги, менять текст в них любым способом, и заливать обратно "исправленные". От этого есть очень простое средство: массвоые заливки / апдейты с использованием автоматики сделать доступными только библиотекарям, а для простых смертных оставить все, как есть. Можно также просто поставить капча-фильтр, чтобы авторизация и скачка книг проходила как обычно, а вот заливка, переименование, изменение жанра и прочие креативные операции - только после набора кода с картинки. Это не сильно усложнит операции по заливке, но зато увеличит уровень защищенности. Для библиотекарей, естественно, такой защиты не надо.

computers написал:
при автоматическом апдейте можно представить себе бота, который будет скачивать книги, менять текст в них любым способом, и заливать обратно "исправленные". От этого есть очень простое средство: массвоые заливки / апдейты с использованием автоматики сделать доступными только библиотекарям

Я, честно говоря, не думаю что там так все просто с ботами. Но на всякий случай добавил ещё вариант, при котором автоматическая замена работает только для библиотекарей.

Заметка для отметки. Просьба Ларину внести изменение отправлена.

Внёс.

Спасибо.

И сразу проблемка :((

Заливка первых 20-ти книг на пробу показала, что первый "if"

           // Automatic upgrade of the same book
           if( ($dubldocid==$id) && (1.0*$ver > 1.0*$dublver) ){
               $r .= joinbooks($b,$dublid,$title);
               return $r . "<hr>\n";
           };

срабатывает штатно.

А второй "if"

           // Automatic upgrade of the old "LibRusEc kit" book
           //                            012345678901234567890123
           // U libruseka dva tipa id - "Tue Jun 12 03:34:15 2007" i "Mon Jun 10 19:57:46 2013"
           // Kljuchevoe - probely s godom.
           $i = strrpos($dubldocid," 20");
           if( ($i==19) && (1.0*$ver > 1.0*$dublver) ){
               $r .= joinbooks($b,$dublid,$title);
               return $r . "<hr>\n";
           };

- не срабатывает. joinbooks который у него внутре, никогда не происходит. То бишь условие if( ($i==19) && (1.0*$ver > 1.0*$dublver) ) не выполняется на тех книжках, где железно должно было бы выполняться... Например, пары книг (я пока держу их в незакрытых окнах браузера):
http://lib.rus.ec/b/120358/join/288
http://lib.rus.ec/b/120363/join/538

Я не знаю в чем причина... вроде по TFM strrpos всё должно работать :((

X