Вы здесьМетаграммы
Опубликовано пн, 10/09/2012 - 03:04 пользователем golma1
Название темы - условное, для лучшего поиска. На самом деле метаграмма - вид шарады. Но к нашей теме косвенное отношение имеет. А собственно тема - об улучшении качества fb2-файла (а о чём же ещё? Примеры: "грех - трех", "свечка - овечка", "липа - лица".
Когда-нибудь, возможно, появится скрипт, выискивающий такие слова, пока их (при желании) можно включить в "Поиск по регэкспам" (частично они уже там присутствуют). К сожалению, словаря на эту тему не существует (или я плохо искала?), поэтому предлагаю собирать их здесь. Для того, чтобы в момент появления скрипта (надеюсь, он всё-таки когда-нибудь появится) было бы чтó ему "скормить".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 день
kopak RE:О группе Дятлова. О той самой, того самого... 1 день Trinki RE:Не присылает пароль на почту 3 дня babajga RE:Плюмаж 6 дней Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 1 неделя babajga RE:Блошкинс и Фрю. Опасное путешествие 1 неделя alexk RE:Багрепорт - 2 2 недели babajga RE:Удивленная сова 3 недели Larisa_F RE:Серия «Квадрат» издательства «Текст» 4 недели Aleks_Sim RE:Беженцы с Флибусты 4 недели edvud RE:Прошу переформатировать, распознать, etc... 4 недели monochka RE:С 8 Марта! 1 месяц babajga RE:Книга чуДОМищ 1 месяц ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц Впечатления о книгах
Oleg68 про Бушков: Времена звездочетов. Наш грустный массаракш (Фэнтези, Самиздат, сетевая литература)
07 04 Не шедевр, но мне понравилось. Опять на самом интересном пауза. Оценка: отлично!
Олег Макаров. про Усманов: Конец или начало? [СИ] (Героическая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
07 04 Белиберда картонная с самого начала. Трёх страниц достаточно, чтобы понять Оценка: нечитаемо
Stager про Старуха
07 04 УГ. Литературы тут нет совсем. Это чисто заклёпочническое построение, а вот с заклёпочничеством у автора большие проблемы. Он не знает того, что знает любой любознательный школьник и что даже сносно описано в Википедии. Поэтому ………
mysevra про Терехов: Каменный мост (Современная проза)
07 04 Я бы читала, мне было интересно, но автор постоянно сбивается на тошнотворное описание каких-то эпизодов взаимоотношений главного героя с его женщинами - зачем мне это знать? Оценка: плохо
mysevra про Свечин: Адский прииск (Исторический детектив)
07 04 Добротно и обстоятельно. Очень интересно описан край. Прочитала с большим удовольствием, теперь хочу прочитать всю серию. Оценка: отлично!
mysevra про Горд: LOVE-леди. Искусство отличаться от других женщин (Психология)
07 04 Наверное, кое-что можно взять на вооружение, хотя риторика американских подростковых сериалов сильно удешевляет идею. Интересно было бы воочию сравнить байгужинку, последовательницу Валяевой и барышню, проработавшую эту книгу. Оценка: неплохо
Gilean про За чужой мечтой
06 04 Читать интересно, но вот мало логики. Ну и как всегда сериал не закончен. Что не понравилось - переходы между книг, читаешь следующую и как будто не врубаешься что происходит? Через главу или две понимаешь о чем речь ………
Олег Макаров. про Панов: Кто-то просит прощения [litres] (Триллер, Детективы: прочее, Мистика)
06 04 Какая-то муть. Не дочитал. После предыдущей даже обидно Оценка: нечитаемо
lukyanelena про Вудворт: Парный танец (Любовная фантастика)
06 04 Какая-то ода абьюзу. И безобразно написаны эротические сцены. Убожество. Полно пафоса и штампов. Такое впечатление, что отдали на аутсорс какой-то малолетке. Оценка: плохо
Г.Гуслия про Скотина
05 04 Очень хорошо, можно даже сказать отлично. Вроде бы как обычный попаданец, но много свежих нюансов. Язык хороший, читается легко. Жалко, что пока только две книги. Надеюсь, продолжение будет не хуже и достаточно скоро.
magmel про Грайдер: Стажер Ли Су Джин (Попаданцы, Самиздат, сетевая литература)
05 04 Понравилось, перекликается с произведениями Кощиенко
dolle про Шаргородский: Слишком смышленый дурачок (Боевая фантастика, Фэнтези, Попаданцы, Самиздат, сетевая литература)
05 04 Как бы попаданец в почти боярку.Оригинально, свежо и необычно. Понравилось.Отлично. Оценка: отлично! |
Комментарии
Отв: Метаграммы
Я обработала почти 70%, но если Вы продвинулись дальше, то уступлю.
Отв: Метаграммы
А еще нужно учесть формы слова (падежи и т.п.), если очевидно, что ошибка будет "срабатывать" на всех или нескольких, то нужно добавлять и их.
Например, ворона - борона (нужно добавлять все падежи).
Врага - врата (только так, лишнего не надо).
Врата - брага (аналогично).
Врага - брага (здесь нужно перебрать падежи, на которых "сработает": враги - браги; враге - браге (-брате); врагу - брагу (-брату). Все перебрали, на других формах сработать не должно).
Отв: Метаграммы
Извините меня, ради Бога, я не знала, что вы делаете, иначе бы не стала браться. Очень сожалею, что так получилось. Я по алфавиту расставила, проверила в FBE орфографией и набором регэкспов, сейчас начала перебирать все падежные формы. После этого занятия с огромной, нет, с огромнейшей радостью отдам все в хорошие руки. Как вы решите. Если продвинулись дальше, или хотите сами сделать, я не буду настаивать. Могу выложить результаты, чтобы можно было сравнить.
Отв: Метаграммы
Я действительно очень сожалею, это неприятно, когда делаешь работу и кто-то переходит дорогу. Еще раз прошу прощения. Просто хотела побыстрее этот скрипт попробовать.
Отв: Метаграммы
Ничего страшного не произошло. Скорей я виновата, не известила о том, что начала делать. Но я придерживаюсь такого правила - не сообщать о недоделках.
Успехов Вам в работе.
Отв: Метаграммы
Тааак...
Не получится ли теперь, что никто теперь не будет делать? :(
Отв: Метаграммы
Я продолжаю. Но очень много вариантов. А нельзя по неизменяемой основе искать. Например, волевой - болевой, искать по — волев - болев. Без:
волевой - болевой
волевая - болевая
волевые - болевые
волевое - болевое
волевым - болевым
волевого - болевого
волевому - болевому
волевом - болевом
Если что, я не специалист и имею право на глупость :).
При перечислении всех вариантов количество слов увеличится в разы.
Отв: Метаграммы
Полагаю, что можно aka в словарях, типа:
волев~ - болев~
Авось, товарисчь, который возмётся варганить скрипт, с пониманием отнесётся к данной промблеме. :)
Отв: Метаграммы
Болдом выделены слова как они были предложены в теме. Курсивом выделена основа для поиска. Если все-таки нужно будет сделать все варианты, без проблем, только завтра.
Отв: Метаграммы
Водной - в одной
Водном - в одном (где там скрипт "слипшиеся слова" или как его там, может быть в подобных случаях он поможет?).
Отв: Метаграммы
Не, скрипт Слипшиеся слова ругнулся только на один случай отсутствия пробела перед дефисом, все остальное его устроило. И вообще я думала, что в скрипт будут входить только выловленные оригинальные "метаграммы", иначе бы тихо сидела себе в уголке. У меня вчера голова вспухла, я давно забыла, что такое спряжения, падежи и подобное.
Отв: Метаграммы
Ну вот это как раз реально выловленные:
Водной - в одной
Водном - в одном
и бороны - вороны тоже...
Отв: Метаграммы
Класс! Спасибо большое.
Уведомлю нашего уважаемого скриптописальщика. ;)
Отв: Метаграммы
Я подумала, может быть, зная, на каких буквах спотыкается FR, пособирать теоретически возможные случаи. Разумеется, не впадая в крайность. Например:
калан - калач
капитель - канитель
казак - казан
кадета - надета
кабак - кабан
платью - платно
лестью - лестно
голой - юлой
рыбкой - рыбной
Любимая FR замена буквы с на е в конце слова вполне может сработать в слове каперс — капере.
Или это лишнее?
Отв: Метаграммы
На мой взгляд, отличная идея. :)
Отв: Метаграммы
Тогда я сначала выложу варианты сюда, если возражений не будет, внесу в список.
Отв: Метаграммы
Водной - в одной
Водном - в одном
есть в списке, а
Борона - ворона
я добавлю, не заметила, что этого слова нет в списке, приняла только как пример, в предыдущих постах его не было. Извините, что не поняла вас.
Отв: Метаграммы
Вот, встретилось: полетать - под стать.
Редкость, наверное.
Отв: Метаграммы
Ну, метограммы все можно перебором из словаря выбрать программно... Не понимаю смысла составления этого Метограмматона... Вариантов подмены букв очень много и зависят они от качества скана, ШРИФТА!, программы распознающей и тп. Я уж не говорю про многоязычные книги или книги, где язык сознательно исковеркан (например, для передачи картавости, заикания...)
А по опыту, действительно - Файнридер порой такие перлы выдает, - кажется он неисчерпаем, как атом - без бутылки не разберешь, куда там регэкспами вылавливать)))
Отв: Метаграммы
Если по какой-то причине книга не вычитывается, этот скрипт позволит выловить хотя бы часть "метаграмм". И совесть успокоит. А сложные книги лучше вычитывать, здесь скрипт не понадобится. ИМХО.
То есть вариантов, естественно, было больше. Решите, что нужно оставить, или может быть добавить?
Отв: Метаграммы
Только что нарвался в новой книге Фоллетта
войны- воины
Отв: Метаграммы
Кстати, это встречается часто. И с падежами.
Отв: Метаграммы
Может быть, и даже скорее всего, уже было:
стальные / стильные - и все морфологические варианты;
мечты / менты - заглавие "Роковые менты" меня сильно порадовало :))
Отв: Метаграммы
Хотелось бы узнать: кто-нибудь что-нибудь делает по решению данного вопроса? Или...
Отв: Метаграммы
Да, собственно скрипт готов. Осталось его всесторонне потестировать и можно "выдавать". Если автор даст добро, можно выложить для массового тестирования.
Уточню.
Отв: Метаграммы
Я "вручную" пополняю Ваш, Голма, справочник. Мне кажется, нужно только в предложенном списке (может это уже реализовано) вначале ставить неправильный или "любимый ФР" вариант слов, а затем правильный. К примеру, в книгах издательства МГ, ФР№ 11 категорически не замечает букву "щ". Поэтому при варианте чаше-чаще я бы поставила, как ошибку "чаше".
Сейчас попалось: мешанина - мещанина. То есть у данного скрипта будет возможность "под себя" подстроить?
Отв: Метаграммы
Этим скриптом занимается Evernet, поэтому у меня нет ответов на Ваши вопросы.
Знаю только, что словарь для скрипта может пополняться пользователем. Давайте подождём ответа автора.
Отв: Метаграммы
Скрипт скоро будет представлен публике. Наполнением списка давно занимается Evernet. По этому вопросу лучше обратиться к ней. Замечу, что как располагать "правильный - неправильный" значения не имеет. Для этого используется символ $. Т.е. в вашем случае конкретно так: чаше-чаще$ и мешанина - мещанина$
Как видите - полная подстройка под нужды пользователя.
Отв: Метаграммы
Хорошо, буду ждать. А то очень сложно бывает выловить ошибки, которые подчас и смысл текста меняют
Отв: Метаграммы
FR11, в основном на гарнитуре таймс и неплохих по качеству сканах
Отв: Метаграммы
Архив со скриптом и необходимыми файлами выложен здесь: http://ge.tt/5fl904b/v/0 и здесь: http://rusfolder.com/35464421
Инструкция пользователя внутри архива.
Часть метаграмм УМЫШЛЕННО не обозначена символом $ — как априори верные.
В иных случаях возможно обсуждение необходимости простановки, перемещения либо удаления знака $.
Подготовкой xml-файла метаграмм и составлением инструкции пользователя занималась Evernet при участии Alex2L.
Она же занималась тестированием, за что ей отдельное спасибо!
Отв: Метаграммы
Можно уточнить по интрукции
У меня на диск "H", когда я нажимаю, пишет "вставьте диск"?
Отв: Метаграммы
Да куда захотите! Любой диск с правами на чтение-запись. Например, D:
Кстати в инструкции маленькая неточность:
вместо 'H://Metagramma//4OTHER//' следует понимать как 'H://4OTHER//'
В вашем случае, скажем, 'D://4OTHER//'
(4OTHER - можите ПЕРЕОБОЗВАТЬ)
Отв: Метаграммы
Поняла.Следующий вопрос
Как точно файл называется? У меня нет названия "Метаграмма-контекст.js" С окончанием "js" есть 5 файлов в папке "js"
Отв: Метаграммы
В файле инструкции "Метаграмма-контекст.rtf" написано:
т.е. в папка 4FBE - Метаграмма-контекст.js. В нём "D://XML//Metagramma//" - меняем на тот, куда распаковали!
Сам фвйл переносим в FB-скриптам.
Отв: Метаграммы
Вопрос: прописала 'D://4OTHER//'

2. Файл "Метаграмма-контекст.js" поместила в подпапку "Scripts"
3.Открыла FBE. В разделе скрипты появился раздел: метаграмма-контест. Нажимаю: пишет-
Отв: Метаграммы
Что прописано в 21-й сверху строке "Метаграмма-контекст.js" ? Так: var MetagrammaPath = 'D://4OTHER//'; ?!
А файл "metagramma.xml" гиде лежит? Тут: 'D:\4OTHER' ?!
Отв: Метаграммы
Спасибо, заработало. Я одну палочку в адресе не поставила.
Отв: Метаграммы
Антонина82, вы говорили, что пополняете словарик. Можете выложить ваши метаграммы, чтобы можно было добавить в свой?
Может быть у кого-нибудь еще появились новые, неплохо было бы писать сюда. А желающие уже будут добавлять в свой словарь.
Отв: Метаграммы
Слова, которые я добавляю в скрипт регэспов (кто придумал такое дурацкое словцо), практически перечислены выше.
Опробовала новый скрипт. Для меня он не очень подходит. Объясню почему. Дело в том, что все книги я прочитываю, сравнивая с бумажным экземпляром. Расценивайте это, как чудачество, при наличии сканов, но это так. Поэтому проверять повторно с помощью метаграмм, мне не очень хочется. Вчера потеряла несколько часов, проверяя с помощью этой программы, ранее сделанную книгу. Ни одной ошибки! Это не значит, что я вычитываю безошибочно. Наверняка, спустя год, прочитав ранее сделанную книгу, их обнаружу. Но, уверена, их количество не будет критичным.
Для себя вывела способ, как сократить количество ошибок. Надо брать одну-две-три серии книг одного издательства и сними работать. Примерно на 5-6-7 книге, вы будете знать "родовые" проблемы ФР при распознавании текста данного издания. К примеру, книги серии ЖЗЛ,как я писала выше, приобретают после работы ФР,"белорусский" акцент, т.е. букву "щ" превращают в в "ш". И получается "мешанина" вместо "мещанина" (: В книгах, серии "Живая история", обязательно надо проверить, если в конце предложения стоит буква "к" наличие точки. И 6 (шестерка) постоянно заменяется буквой "б". Я думаю, что Голма может привести значительно больше подобных примеров из практики. Ну, конечно, зацикливаться на книгах одной серии я не собираюсь, а то у меня в мозгах "сумбур биографий классиков".
Поэтому программа "метаграмм" будет хорошо работать и помогать тем книгоделам, кто не читает текстов. ФР покажет ошибки распознавания, а "метаграммы" покажут ошибки ФР.
Отв: Метаграммы
Это я ставил вопрос про спелчекер и вычитку. Поставил. Сделал даже под него иконку. Кого заинтересует здесь http://yadi.sk/d/vN5f9PtO3ITwL . Попробовал работать. По моему получается довольно параноидально. При проверке обнаружилось больше 500!!! слов. Только слово «более» имеет 105 вхождений. Проверка всех слов займет времени больше, чем вычитка. А по мере увеличения словаря будет еще хуже. Это первое впечатление. Посмотрим, что будет дальше.
Отв: Метаграммы
Что параноидально, эт точно! Сам когда увидел первые рез-ты - офигел, сколько слов оказывается в метаграммных связях замечены.
Насчет "более" - кто-то написал, что так у него "боже" распозналось. Наверное, так и было. С "далее" - та же, похоже, история. Тут два выхода - или переделать словарь "под себя", выкинув лишнее. Либо при прверке протокола не обращать на часть слов внимания в принципе, особенно тех, где кол-во повторений много. Кстати Это кол-во не вхождений данного слова в текст в целом, а кол-во параграфов, где встретилось это слово. Т.е. на самом деле их может быть больше. Уменьшение размеров словаря - путь к ускорению обработки. Оставить только типа "негр - неф" и т.п. Скрипт по большому счету для отпетых педантов. А что делать?! На джаваскриптах искусственные интелект не соорудить. ИМХО.
Отв: Метаграммы
Всего скрипт насчитал больше 4800 вхождений. Если, на просмотр каждого потратить 5 сек, то получится 24000 сек= 400 мин= 6,6 часов. Я эту книгу 400 стр. прочту за 8.
Страницы