|
13-12-2025 15:26
Halifers
Возможно у кого то есть опыт построения подобных информационных систем на базе общедоступных программ?
Видимо нужен программный индексатор с расширенными возможностями поиска и возможностью открытия оригинальных файлов разных форматов и сохранением исходного текста в виде хотя бы простого текста. Желательно сохранить возможность организации перекрёстных ссылок между документами. Так что они должны быть в относительно редактируемом формате. Хотя вероятно придется периодически перестраивать индекс. Желательна возможность отключения отдельных специализированных поисковых баз для сужения поиска. Этим критериям в основном удовлетворяет программа Archivarius3000. Но в ней не очень удобен способ отображения (простой текст со ссылкой на файл из каталога). Возможно есть ещё какие то варианты? Количество доступных материалов огромно но все эти материалы неупорядочены и нуждаются в сортировке. Думаю стоит создать индекс оглавления книг, журналов и статей (например с помощью Abbyy Screensot Reader и Яндекс-переводчика для иностранных журналов которых тоже много). Дополнительно провести тегирование книг и статей для упрощения поиска и выхода к конкретному месту в тексте). К слову не помешает произвести повторную OCR обработку текстовых слоёв у сканированных книг в новейших версиях ПО для распознавания текстов. Так как кажется что некоторые книги сканировались и распознавались еще на заре становления таких программ как FineReader. |
|
13-12-2025 22:09
KRASTAVR
Все уже придумано до вас. Ищите архив библиотеки НШГО. Инфа структурировано лежит по папкам.
|
|
13-12-2025 23:39
nikserg
не очень понятно, что подразумевается под информационной системой. система каталогов, поисковая система, справочная система, Wiki-система, экспертная система, система поддержки принятия решений, база знаний, интеллектуальная информационная система?
тут простор от одностраничных TiddlyWiki и WoaS - Wiki on a Stick до комбайнов типа Calibre с прикрученной LLM для параллельного перевода и упоротости с построением RAG-системы. |
|
14-12-2025 12:00
Halifers
Ясно что для индексации придётся использовать те документы что уже созданы, скачаны и раскиданы по папкам. Есть даже специализированные сайты в архивах на разные темы - водоподготовка, охлаждение, вентиляция, электрика, генерация электричества, аккумуляторы, авторемонт и т.д. |
|
14-12-2025 13:17
nikserg
если под Виндой сидите, то чем системный поиск не устраивает? службу индескации и альтернативные потоки или как они там называются не отключайте, со временем система сама разберётся что где лежит.
другой вопрос что на такой помойке все эти индексаторы при простом запросе выдают сотни результатов. сохранено десяток выживальщецких сайтов - по запросу "разведение огня" весь десяток вываливаться и будет, причём каждый по нескольку раз, потому что разведение огня и в разведении костра, и приготовлении пищи, и в обустройстве лагеря, и в подаче сигналов, и в сушке снаряжения, и в пытке пленных. выкачали библиотеку токаря - по запросу "заточка резцов" все книги в выдаче и будут вывалены, потому что в любой околотокарной книжке заточка резцов упомянута хотя бы по разу во введении и разделу по технике безопасности. p.s. что я тут расписываю, на скрине ситуация во всей красе. "разведение страусов" и "разведение мочи" - наверняка искомое |
|
14-12-2025 17:00
Halifers
Ну можно вбить разведение креветки. У меня 2 соответствия выпало. К тому же на скриншоте относительно старая версия, в новой есть 4 дополнительных режима поиска. Включая регулярные выражения. Пока что перевод программы делал, как работает не пробовал. По идее с помощью регулярок можно искать больше словоформ, что ускорить и облегчить поиск. К тому же можно запустить несколько копий программы и работать с несколькими запросами одновременно в одном окне. кажется Архивариус 3000 работает только с одним окном и одним запросом что очень неудобно. |
|
14-12-2025 17:26
Halifers
Можно проиндексировать каталоги в Архивариусе, потом тексты индекса экспортировать в theWord таким образом работать с поиском станет комфортнее. Но там все равно многое упирается в то что надо подготовить имена файлов, проверить наличие OCR слоя в DJVU и PDF и т.п. мелочи. А когда в каталоге тысячи книг по народному хозяйству это непросто. Даже простое снятие оглавлений OCR программой не очень быстрый процесс. Надо много людей чтобы быстро все это привести в порядок. Да и желательно с хорошими современными компьютерами.
|
|
14-12-2025 17:53
nikserg
сейчас так никто делать не будет. сначала прогонят всё распознают через нейронку, можно даже локально https://habr.com/ru/articles/975824/ , потом нарежут на чанки и получившуюся после индексации базу векторов скормят RAG habr.com . есть нюансы типа кривой нарезки, когда чанки режутся по объёму, а не по смыслу, малого окна контекста при бюджетно локальной обработке, но с этим можно работать. скорость и обработка больших объёмов решают. |
|
14-12-2025 17:53
Halifers
В принципе с рутрекера не проблема выкачать целые разделы, например раздел по электронике, программированию. Но хранить негде, не хватает жестких дисков, вернее денег на покупки. Да ещё и один отказал на 6Тб с материалами.
|
|
14-12-2025 18:03
nikserg
врукопашную всё это точно не победите. не ставлю вопрос нужности всего этого, раз хочет человек в своей деревне метро вручную копать, значит ему надо. но это объективно хобби для обеспеченного пенсионера. не потому, что он когда-то этим сможет воспользоваться или хотя бы оно будет доведено до какого-то логического конца, а потому что таков путь.
|
|
14-12-2025 18:14
Halifers
Я лично пробовал варант Abbyy Hot Folder (в составе 16-й версии Finereader. Программа сама проверяет горячую папку раз в минуту и все что туда закидывается обрабатывает и выводит в одном из форматов в другую папку с сохранением структуры папок). Например можно настроить вывод в формат RTF который легко и достаточно быстро импортируется в отдельные базы данных для TheWord. Это несколько лучше чем простой текст в Archivarius 3000 так как более-менее хорошо сохраняются форматирование абзацев, кегли и цвета шрифтов и главное, - таблицы. Но Finereader работает достаточно медленно и с высокой загрузкой ЦПУ. Надо отдельный компьютер для обработки выделять, а то и несколько для того чтобы перевести десятки тысяч книг и журналов из PDF. Но это если не сортировать материалы на предмет наличия OCR слоя вручную. Если сортировать то можно уменьшить объемы, но такой вариант (Archivarius - экспорт в текс - импорт в TheWord) в итоге даёт возможность читать простой неформатированный текст.
|
|
14-12-2025 18:33
nikserg
журналы - отдельный большой головняк. никто не знает, что в этих подшивках есть, а если где-то когда-то видел, то не вспомнишь, где оно. там бывает актуальный опыт по отделььным больше нигде не освещённым вопросам. но память может подсказывать неправильные слова для поиска, а автор может использовать сленг, сокращённые названия и кривляния. пример прямо из этого раздела - сообщения камрада n114. писал по делу, но хрен ты его найдёшь обычным поиском, потому что всё с кривляниями и алабнским. а ещё иностранные периодика, сайты и книги. поиск надо многоязыковой и тоже с учётом отраслевого сленга. короче, "Архивариусы" в архив или натравливать на мелкие библиотеки. без нечёткого семантического поиска задача не взлетит. |
|
14-12-2025 18:49
Halifers
да я тоже где то читал о возможностях поиска с учетом синонимов но это было давно, еще до массового взлета нейронных сетей. Я к массовому явлению нейронных сетей уже забросил это занятие. |