Вы здесьМетаграммы
Опубликовано пн, 10/09/2012 - 03:04 пользователем golma1
Название темы - условное, для лучшего поиска. На самом деле метаграмма - вид шарады. Но к нашей теме косвенное отношение имеет. А собственно тема - об улучшении качества fb2-файла (а о чём же ещё? Примеры: "грех - трех", "свечка - овечка", "липа - лица".
Когда-нибудь, возможно, появится скрипт, выискивающий такие слова, пока их (при желании) можно включить в "Поиск по регэкспам" (частично они уже там присутствуют). К сожалению, словаря на эту тему не существует (или я плохо искала?), поэтому предлагаю собирать их здесь. Для того, чтобы в момент появления скрипта (надеюсь, он всё-таки когда-нибудь появится) было бы чтó ему "скормить".
|
Вход на сайтПоиск по блогам и форумамUser menuПоследние комментарии
Aliki RE:Подайте бедному копеечку на книжку с литреса... 1 день
babajga RE:Плюмаж 1 день Саша из Киева RE:Кто сможет раздобыть и оцифровать нужные мне книги? 3 дня babajga RE:Блошкинс и Фрю. Опасное путешествие 4 дня kopak RE:О группе Дятлова. О той самой, того самого... 1 неделя alexk RE:Багрепорт - 2 1 неделя babajga RE:Удивленная сова 3 недели Larisa_F RE:Серия «Квадрат» издательства «Текст» 3 недели Aleks_Sim RE:Беженцы с Флибусты 3 недели edvud RE:Прошу переформатировать, распознать, etc... 3 недели monochka RE:С 8 Марта! 3 недели babajga RE:Книга чуДОМищ 4 недели ProstoTac RE:Подборка о Первой Мировой 1 месяц babajga RE:Нержавеющая сабля 1 месяц sem14 RE:«Уроки русского» 1 месяц Isais RE:Древний Рим. Подборка книг 1 месяц babajga RE:Отчаянная осень 1 месяц babajga RE:Сказки Сени Малины 1 месяц Впечатления о книгах
obivatel про Токсик: Лорд Системы 22 [СИ] (Боевая фантастика, Попаданцы, ЛитРПГ, Самиздат, сетевая литература)
03 04 Годное чтиво. 22-й том, а до сих пор не надоело. Бредятина конечно, но мир описан непротиворечиво и логика событий не хромает. Оценка: хорошо
Nivigor про Леонтьева: Zа право жить (Современная проза, О войне)
02 04 Сколько бандерюг тут отметилось! Оценка: отлично!
ne_fanat про Капба: Как приручить дракона. Книга 1 [СИ] (Альтернативная история, Киберпанк, Попаданцы, Самиздат, сетевая литература)
02 04 Выскажусь за первые 4 книги цикла. По крайней мере человек умеет писать намного лучше подавляющего большинства заливаемых тут авторов. Нормальный, хороший, правильный язык и складное повествование. Рекомендую. Оценка: хорошо
virtcatty про Леонтьева: Zа право жить (Современная проза, О войне)
02 04 Не сильно Литературно, но читать можно, и ГЛАВНОЕ НУЖНО! Чтобы люди знали. Для Лысенко ВА Да Я Русский патриот и не в коем случае как Вы пишете "рашен" Кому жить , а кому умереть каждый решает САМ и способствует этому тоже САМ!
mysevra про Толкачев: Паутина противостояния [антология] (Фэнтези)
02 04 Слабенько даже по сравнению с предыдущей антологией. Оценка: неплохо
mysevra про Толкачев: Правила крови [антология] (Городское фэнтези)
02 04 Рассказы Панова понравились, остальное - на любителя. Оценка: хорошо
mysevra про Терехов: Каменный мост (Современная проза)
02 04 Была бы хорошая летопись тех времен и будней номенклатуры, если бы не "жесткая рефлексия самого героя" вместе с его беспорядочной личной жизнью. Даже хуже чем сериал, из-за которого решила прочитать книгу. Оценка: неплохо
Лысенко Владимир Андреевич про Леонтьева: Zа право жить (Современная проза, О войне)
01 04 Как всегда только мы русские можем решать, кому жить, а кому умереть. Если не по нашему то они бандеровцы. Нечитаемо, только для рашен патриотов. Оценка: нечитаемо
Paul von Sokolovski про Первый в касте бездны
31 03 Мне понравился этот сериал. Легко читается, симпатичный главгерой , чем то напомнило старую литературу для подростков. Отлично.
Gilean про Сопряжение [Астахов]
31 03 Шикарная серия, драйв нонстоп как говорится. И концовка понравилась.
RedRoses3 про Демиденко: Мастерство работы с ChatGPT 4 [полный гид для новичков и профессионалов] (Околокомпьютерная литература, Учебные пособия, самоучители)
31 03 Про ИИ надо не читать, а брать и делать
Синявский про Ален Жобер
30 03 В возрасте 84 лет скончался французский деятель культуры, известный как режиссер, писатель, актер, продюсер и переводчик — Ален Жобер. Об этом информирует портал Telerama. Жобер являлся коренным парижанином, в столице ……… |
Комментарии
Отв: Метаграммы
Я обработала почти 70%, но если Вы продвинулись дальше, то уступлю.
Отв: Метаграммы
А еще нужно учесть формы слова (падежи и т.п.), если очевидно, что ошибка будет "срабатывать" на всех или нескольких, то нужно добавлять и их.
Например, ворона - борона (нужно добавлять все падежи).
Врага - врата (только так, лишнего не надо).
Врата - брага (аналогично).
Врага - брага (здесь нужно перебрать падежи, на которых "сработает": враги - браги; враге - браге (-брате); врагу - брагу (-брату). Все перебрали, на других формах сработать не должно).
Отв: Метаграммы
Извините меня, ради Бога, я не знала, что вы делаете, иначе бы не стала браться. Очень сожалею, что так получилось. Я по алфавиту расставила, проверила в FBE орфографией и набором регэкспов, сейчас начала перебирать все падежные формы. После этого занятия с огромной, нет, с огромнейшей радостью отдам все в хорошие руки. Как вы решите. Если продвинулись дальше, или хотите сами сделать, я не буду настаивать. Могу выложить результаты, чтобы можно было сравнить.
Отв: Метаграммы
Я действительно очень сожалею, это неприятно, когда делаешь работу и кто-то переходит дорогу. Еще раз прошу прощения. Просто хотела побыстрее этот скрипт попробовать.
Отв: Метаграммы
Ничего страшного не произошло. Скорей я виновата, не известила о том, что начала делать. Но я придерживаюсь такого правила - не сообщать о недоделках.
Успехов Вам в работе.
Отв: Метаграммы
Тааак...
Не получится ли теперь, что никто теперь не будет делать? :(
Отв: Метаграммы
Я продолжаю. Но очень много вариантов. А нельзя по неизменяемой основе искать. Например, волевой - болевой, искать по — волев - болев. Без:
волевой - болевой
волевая - болевая
волевые - болевые
волевое - болевое
волевым - болевым
волевого - болевого
волевому - болевому
волевом - болевом
Если что, я не специалист и имею право на глупость :).
При перечислении всех вариантов количество слов увеличится в разы.
Отв: Метаграммы
Полагаю, что можно aka в словарях, типа:
волев~ - болев~
Авось, товарисчь, который возмётся варганить скрипт, с пониманием отнесётся к данной промблеме. :)
Отв: Метаграммы
Болдом выделены слова как они были предложены в теме. Курсивом выделена основа для поиска. Если все-таки нужно будет сделать все варианты, без проблем, только завтра.
Отв: Метаграммы
Водной - в одной
Водном - в одном (где там скрипт "слипшиеся слова" или как его там, может быть в подобных случаях он поможет?).
Отв: Метаграммы
Не, скрипт Слипшиеся слова ругнулся только на один случай отсутствия пробела перед дефисом, все остальное его устроило. И вообще я думала, что в скрипт будут входить только выловленные оригинальные "метаграммы", иначе бы тихо сидела себе в уголке. У меня вчера голова вспухла, я давно забыла, что такое спряжения, падежи и подобное.
Отв: Метаграммы
Ну вот это как раз реально выловленные:
Водной - в одной
Водном - в одном
и бороны - вороны тоже...
Отв: Метаграммы
Класс! Спасибо большое.
Уведомлю нашего уважаемого скриптописальщика. ;)
Отв: Метаграммы
Я подумала, может быть, зная, на каких буквах спотыкается FR, пособирать теоретически возможные случаи. Разумеется, не впадая в крайность. Например:
калан - калач
капитель - канитель
казак - казан
кадета - надета
кабак - кабан
платью - платно
лестью - лестно
голой - юлой
рыбкой - рыбной
Любимая FR замена буквы с на е в конце слова вполне может сработать в слове каперс — капере.
Или это лишнее?
Отв: Метаграммы
На мой взгляд, отличная идея. :)
Отв: Метаграммы
Тогда я сначала выложу варианты сюда, если возражений не будет, внесу в список.
Отв: Метаграммы
Водной - в одной
Водном - в одном
есть в списке, а
Борона - ворона
я добавлю, не заметила, что этого слова нет в списке, приняла только как пример, в предыдущих постах его не было. Извините, что не поняла вас.
Отв: Метаграммы
Вот, встретилось: полетать - под стать.
Редкость, наверное.
Отв: Метаграммы
Ну, метограммы все можно перебором из словаря выбрать программно... Не понимаю смысла составления этого Метограмматона... Вариантов подмены букв очень много и зависят они от качества скана, ШРИФТА!, программы распознающей и тп. Я уж не говорю про многоязычные книги или книги, где язык сознательно исковеркан (например, для передачи картавости, заикания...)
А по опыту, действительно - Файнридер порой такие перлы выдает, - кажется он неисчерпаем, как атом - без бутылки не разберешь, куда там регэкспами вылавливать)))
Отв: Метаграммы
Если по какой-то причине книга не вычитывается, этот скрипт позволит выловить хотя бы часть "метаграмм". И совесть успокоит. А сложные книги лучше вычитывать, здесь скрипт не понадобится. ИМХО.
То есть вариантов, естественно, было больше. Решите, что нужно оставить, или может быть добавить?
Отв: Метаграммы
Только что нарвался в новой книге Фоллетта
войны- воины
Отв: Метаграммы
Кстати, это встречается часто. И с падежами.
Отв: Метаграммы
Может быть, и даже скорее всего, уже было:
стальные / стильные - и все морфологические варианты;
мечты / менты - заглавие "Роковые менты" меня сильно порадовало :))
Отв: Метаграммы
Хотелось бы узнать: кто-нибудь что-нибудь делает по решению данного вопроса? Или...
Отв: Метаграммы
Да, собственно скрипт готов. Осталось его всесторонне потестировать и можно "выдавать". Если автор даст добро, можно выложить для массового тестирования.
Уточню.
Отв: Метаграммы
Я "вручную" пополняю Ваш, Голма, справочник. Мне кажется, нужно только в предложенном списке (может это уже реализовано) вначале ставить неправильный или "любимый ФР" вариант слов, а затем правильный. К примеру, в книгах издательства МГ, ФР№ 11 категорически не замечает букву "щ". Поэтому при варианте чаше-чаще я бы поставила, как ошибку "чаше".
Сейчас попалось: мешанина - мещанина. То есть у данного скрипта будет возможность "под себя" подстроить?
Отв: Метаграммы
Этим скриптом занимается Evernet, поэтому у меня нет ответов на Ваши вопросы.
Знаю только, что словарь для скрипта может пополняться пользователем. Давайте подождём ответа автора.
Отв: Метаграммы
Скрипт скоро будет представлен публике. Наполнением списка давно занимается Evernet. По этому вопросу лучше обратиться к ней. Замечу, что как располагать "правильный - неправильный" значения не имеет. Для этого используется символ $. Т.е. в вашем случае конкретно так: чаше-чаще$ и мешанина - мещанина$
Как видите - полная подстройка под нужды пользователя.
Отв: Метаграммы
Хорошо, буду ждать. А то очень сложно бывает выловить ошибки, которые подчас и смысл текста меняют
Отв: Метаграммы
FR11, в основном на гарнитуре таймс и неплохих по качеству сканах
Отв: Метаграммы
Архив со скриптом и необходимыми файлами выложен здесь: http://ge.tt/5fl904b/v/0 и здесь: http://rusfolder.com/35464421
Инструкция пользователя внутри архива.
Часть метаграмм УМЫШЛЕННО не обозначена символом $ — как априори верные.
В иных случаях возможно обсуждение необходимости простановки, перемещения либо удаления знака $.
Подготовкой xml-файла метаграмм и составлением инструкции пользователя занималась Evernet при участии Alex2L.
Она же занималась тестированием, за что ей отдельное спасибо!
Отв: Метаграммы
Можно уточнить по интрукции
У меня на диск "H", когда я нажимаю, пишет "вставьте диск"?
Отв: Метаграммы
Да куда захотите! Любой диск с правами на чтение-запись. Например, D:
Кстати в инструкции маленькая неточность:
вместо 'H://Metagramma//4OTHER//' следует понимать как 'H://4OTHER//'
В вашем случае, скажем, 'D://4OTHER//'
(4OTHER - можите ПЕРЕОБОЗВАТЬ)
Отв: Метаграммы
Поняла.Следующий вопрос
Как точно файл называется? У меня нет названия "Метаграмма-контекст.js" С окончанием "js" есть 5 файлов в папке "js"
Отв: Метаграммы
В файле инструкции "Метаграмма-контекст.rtf" написано:
т.е. в папка 4FBE - Метаграмма-контекст.js. В нём "D://XML//Metagramma//" - меняем на тот, куда распаковали!
Сам фвйл переносим в FB-скриптам.
Отв: Метаграммы
Вопрос: прописала 'D://4OTHER//'

2. Файл "Метаграмма-контекст.js" поместила в подпапку "Scripts"
3.Открыла FBE. В разделе скрипты появился раздел: метаграмма-контест. Нажимаю: пишет-
Отв: Метаграммы
Что прописано в 21-й сверху строке "Метаграмма-контекст.js" ? Так: var MetagrammaPath = 'D://4OTHER//'; ?!
А файл "metagramma.xml" гиде лежит? Тут: 'D:\4OTHER' ?!
Отв: Метаграммы
Спасибо, заработало. Я одну палочку в адресе не поставила.
Отв: Метаграммы
Антонина82, вы говорили, что пополняете словарик. Можете выложить ваши метаграммы, чтобы можно было добавить в свой?
Может быть у кого-нибудь еще появились новые, неплохо было бы писать сюда. А желающие уже будут добавлять в свой словарь.
Отв: Метаграммы
Слова, которые я добавляю в скрипт регэспов (кто придумал такое дурацкое словцо), практически перечислены выше.
Опробовала новый скрипт. Для меня он не очень подходит. Объясню почему. Дело в том, что все книги я прочитываю, сравнивая с бумажным экземпляром. Расценивайте это, как чудачество, при наличии сканов, но это так. Поэтому проверять повторно с помощью метаграмм, мне не очень хочется. Вчера потеряла несколько часов, проверяя с помощью этой программы, ранее сделанную книгу. Ни одной ошибки! Это не значит, что я вычитываю безошибочно. Наверняка, спустя год, прочитав ранее сделанную книгу, их обнаружу. Но, уверена, их количество не будет критичным.
Для себя вывела способ, как сократить количество ошибок. Надо брать одну-две-три серии книг одного издательства и сними работать. Примерно на 5-6-7 книге, вы будете знать "родовые" проблемы ФР при распознавании текста данного издания. К примеру, книги серии ЖЗЛ,как я писала выше, приобретают после работы ФР,"белорусский" акцент, т.е. букву "щ" превращают в в "ш". И получается "мешанина" вместо "мещанина" (: В книгах, серии "Живая история", обязательно надо проверить, если в конце предложения стоит буква "к" наличие точки. И 6 (шестерка) постоянно заменяется буквой "б". Я думаю, что Голма может привести значительно больше подобных примеров из практики. Ну, конечно, зацикливаться на книгах одной серии я не собираюсь, а то у меня в мозгах "сумбур биографий классиков".
Поэтому программа "метаграмм" будет хорошо работать и помогать тем книгоделам, кто не читает текстов. ФР покажет ошибки распознавания, а "метаграммы" покажут ошибки ФР.
Отв: Метаграммы
Это я ставил вопрос про спелчекер и вычитку. Поставил. Сделал даже под него иконку. Кого заинтересует здесь http://yadi.sk/d/vN5f9PtO3ITwL . Попробовал работать. По моему получается довольно параноидально. При проверке обнаружилось больше 500!!! слов. Только слово «более» имеет 105 вхождений. Проверка всех слов займет времени больше, чем вычитка. А по мере увеличения словаря будет еще хуже. Это первое впечатление. Посмотрим, что будет дальше.
Отв: Метаграммы
Что параноидально, эт точно! Сам когда увидел первые рез-ты - офигел, сколько слов оказывается в метаграммных связях замечены.
Насчет "более" - кто-то написал, что так у него "боже" распозналось. Наверное, так и было. С "далее" - та же, похоже, история. Тут два выхода - или переделать словарь "под себя", выкинув лишнее. Либо при прверке протокола не обращать на часть слов внимания в принципе, особенно тех, где кол-во повторений много. Кстати Это кол-во не вхождений данного слова в текст в целом, а кол-во параграфов, где встретилось это слово. Т.е. на самом деле их может быть больше. Уменьшение размеров словаря - путь к ускорению обработки. Оставить только типа "негр - неф" и т.п. Скрипт по большому счету для отпетых педантов. А что делать?! На джаваскриптах искусственные интелект не соорудить. ИМХО.
Отв: Метаграммы
Всего скрипт насчитал больше 4800 вхождений. Если, на просмотр каждого потратить 5 сек, то получится 24000 сек= 400 мин= 6,6 часов. Я эту книгу 400 стр. прочту за 8.
Страницы