Какой должна быть локальная база знаний для ГО-ЧС?

Halifers

13-12-2025 15:26 Halifers

Возможно у кого то есть опыт построения подобных информационных систем на базе общедоступных программ?

Видимо нужен программный индексатор с расширенными возможностями поиска и возможностью открытия оригинальных файлов разных форматов и сохранением исходного текста в виде хотя бы простого текста.

Документы видимо должны быть разбиты до уровня глав и очищены от посторонних элементов (типа html страниц) чтобы поиск как можно меньше выдавал неточных соответствий запросам.

Желательно сохранить возможность организации перекрёстных ссылок между документами. Так что они должны быть в относительно редактируемом формате. Хотя вероятно придется периодически перестраивать индекс.

Желательна возможность отключения отдельных специализированных поисковых баз для сужения поиска.

Этим критериям в основном удовлетворяет программа Archivarius3000. Но в ней не очень удобен способ отображения (простой текст со ссылкой на файл из каталога). Возможно есть ещё какие то варианты?

Количество доступных материалов огромно но все эти материалы неупорядочены и нуждаются в сортировке. Думаю стоит создать индекс оглавления книг, журналов и статей (например с помощью Abbyy Screensot Reader и Яндекс-переводчика для иностранных журналов которых тоже много). Дополнительно провести тегирование книг и статей для упрощения поиска и выхода к конкретному месту в тексте). К слову не помешает произвести повторную OCR обработку текстовых слоёв у сканированных книг в новейших версиях ПО для распознавания текстов. Так как кажется что некоторые книги сканировались и распознавались еще на заре становления таких программ как FineReader.

буду лайка

13-12-2025 15:43 буду лайка

Не совершенство, но в целом концептуально всё понятно. И интерфейс вполне дружественный при этом..

------
bible in pocket gun in hand

KRASTAVR

13-12-2025 22:09 KRASTAVR

Все уже придумано до вас. Ищите архив библиотеки НШГО. Инфа структурировано лежит по папкам.

nikserg

13-12-2025 23:39 nikserg

не очень понятно, что подразумевается под информационной системой. система каталогов, поисковая система, справочная система, Wiki-система, экспертная система, система поддержки принятия решений, база знаний, интеллектуальная информационная система?

тут простор от одностраничных TiddlyWiki и WoaS - Wiki on a Stick до комбайнов типа Calibre с прикрученной LLM для параллельного перевода и упоротости с построением RAG-системы.

Halifers

14-12-2025 12:00 Halifers

nikserg:
не очень понятно, что подразумевается под информационной системой. система каталогов, поисковая система, справочная система, Wiki-система, экспертная система, система поддержки принятия решений, база знаний, интеллектуальная информационная система?
тут простор от одностраничных TiddlyWiki и WoaS - Wiki on a Stick до комбайнов типа Calibre с прикрученной LLM для параллельного перевода и упоротости с построением RAG-системы.

Ясно что для индексации придётся использовать те документы что уже созданы, скачаны и раскиданы по папкам. Есть даже специализированные сайты в архивах на разные темы - водоподготовка, охлаждение, вентиляция, электрика, генерация электричества, аккумуляторы, авторемонт и т.д.

Halifers

14-12-2025 12:05 Halifers

nikserg

14-12-2025 13:17 nikserg

если под Виндой сидите, то чем системный поиск не устраивает? службу индескации и альтернативные потоки или как они там называются не отключайте, со временем система сама разберётся что где лежит.

другой вопрос что на такой помойке все эти индексаторы при простом запросе выдают сотни результатов. сохранено десяток выживальщецких сайтов - по запросу "разведение огня" весь десяток вываливаться и будет, причём каждый по нескольку раз, потому что разведение огня и в разведении костра, и приготовлении пищи, и в обустройстве лагеря, и в подаче сигналов, и в сушке снаряжения, и в пытке пленных. выкачали библиотеку токаря - по запросу "заточка резцов" все книги в выдаче и будут вывалены, потому что в любой околотокарной книжке заточка резцов упомянута хотя бы по разу во введении и разделу по технике безопасности.

p.s. что я тут расписываю, на скрине ситуация во всей красе. "разведение страусов" и "разведение мочи" - наверняка искомое

Halifers

14-12-2025 17:00 Halifers

nikserg:
p.s. что я тут расписываю, на скрине ситуация во всей красе. "разведение страусов" и "разведение мочи" - наверняка искомое

Ну можно вбить разведение креветки. У меня 2 соответствия выпало. К тому же на скриншоте относительно старая версия, в новой есть 4 дополнительных режима поиска. Включая регулярные выражения. Пока что перевод программы делал, как работает не пробовал. По идее с помощью регулярок можно искать больше словоформ, что ускорить и облегчить поиск.

К тому же можно запустить несколько копий программы и работать с несколькими запросами одновременно в одном окне. кажется Архивариус 3000 работает только с одним окном и одним запросом что очень неудобно.

Halifers

14-12-2025 17:26 Halifers

Можно проиндексировать каталоги в Архивариусе, потом тексты индекса экспортировать в theWord таким образом работать с поиском станет комфортнее. Но там все равно многое упирается в то что надо подготовить имена файлов, проверить наличие OCR слоя в DJVU и PDF и т.п. мелочи. А когда в каталоге тысячи книг по народному хозяйству это непросто. Даже простое снятие оглавлений OCR программой не очень быстрый процесс. Надо много людей чтобы быстро все это привести в порядок. Да и желательно с хорошими современными компьютерами.

Halifers

14-12-2025 17:34 Halifers

Вот например два каталога 1-й по сельскому хозяйству, 2-й по обустройству дома и дачи, садоводству, - содержат 2428 наименований. Среди которых и каталоги с подшивками журналов. Но на самом деле тяжелых базовых каталогов намного больше включая собственно выживальческие материалы, энергетику, медицину и т.д.

nikserg

14-12-2025 17:53 nikserg

Originally posted by Halifers:

Но там все равно многое упирается в то что надо подготовить имена файлов, проверить наличие OCR слоя в DJVU и PDF и т.п. мелочи. А когда в каталоге тысячи книг по народному хозяйству это непросто. Даже простое снятие оглавлений OCR программой не очень быстрый процесс. Надо много людей чтобы быстро все это привести в порядок. Да и желательно с хорошими современными компьютерами.

сейчас так никто делать не будет. сначала прогонят всё распознают через нейронку, можно даже локально https://habr.com/ru/articles/975824/ , потом нарежут на чанки и получившуюся после индексации базу векторов скормят RAG habr.com . есть нюансы типа кривой нарезки, когда чанки режутся по объёму, а не по смыслу, малого окна контекста при бюджетно локальной обработке, но с этим можно работать. скорость и обработка больших объёмов решают.

Halifers

14-12-2025 17:53 Halifers

В принципе с рутрекера не проблема выкачать целые разделы, например раздел по электронике, программированию. Но хранить негде, не хватает жестких дисков, вернее денег на покупки. Да ещё и один отказал на 6Тб с материалами.

nikserg

14-12-2025 18:03 nikserg

врукопашную всё это точно не победите. не ставлю вопрос нужности всего этого, раз хочет человек в своей деревне метро вручную копать, значит ему надо. но это объективно хобби для обеспеченного пенсионера. не потому, что он когда-то этим сможет воспользоваться или хотя бы оно будет доведено до какого-то логического конца, а потому что таков путь.

Halifers

14-12-2025 18:14 Halifers

nikserg:

сейчас так никто делать не будет. сначала прогонят всё распознают через нейронку, можно даже локально https://habr.com/ru/articles/975824/ , потом нарежут на чанки и получившуюся после индексации базу векторов скормят RAG habr.com . есть нюансы типа кривой нарезки, когда чанки режутся по объёму, а не по смыслу, малого окна контекста при бюджетно локальной обработке, но с этим можно работать. скорость и обработка больших объёмов решают.

Я лично пробовал варант Abbyy Hot Folder (в составе 16-й версии Finereader. Программа сама проверяет горячую папку раз в минуту и все что туда закидывается обрабатывает и выводит в одном из форматов в другую папку с сохранением структуры папок). Например можно настроить вывод в формат RTF который легко и достаточно быстро импортируется в отдельные базы данных для TheWord. Это несколько лучше чем простой текст в Archivarius 3000 так как более-менее хорошо сохраняются форматирование абзацев, кегли и цвета шрифтов и главное, - таблицы.

Но Finereader работает достаточно медленно и с высокой загрузкой ЦПУ. Надо отдельный компьютер для обработки выделять, а то и несколько для того чтобы перевести десятки тысяч книг и журналов из PDF.

Но это если не сортировать материалы на предмет наличия OCR слоя вручную. Если сортировать то можно уменьшить объемы, но такой вариант (Archivarius - экспорт в текс - импорт в TheWord) в итоге даёт возможность читать простой неформатированный текст.

Есть еще вариант сохранения книг постранично в изображения с помощью конверторов типа PDFGear и обработки отдельных изображений по той же схеме через Abbyy HotFolder. тогда можно будет обращаться к конкретным страницам в найденном. Тоже неплохой вариант. Но тоже требует времени.

nikserg

14-12-2025 18:33 nikserg

Originally posted by Halifers:

Среди которых и каталоги с подшивками журналов.

журналы - отдельный большой головняк. никто не знает, что в этих подшивках есть, а если где-то когда-то видел, то не вспомнишь, где оно. там бывает актуальный опыт по отделььным больше нигде не освещённым вопросам. но память может подсказывать неправильные слова для поиска, а автор может использовать сленг, сокращённые названия и кривляния. пример прямо из этого раздела - сообщения камрада n114. писал по делу, но хрен ты его найдёшь обычным поиском, потому что всё с кривляниями и алабнским.

а ещё иностранные периодика, сайты и книги. поиск надо многоязыковой и тоже с учётом отраслевого сленга.

короче, "Архивариусы" в архив или натравливать на мелкие библиотеки. без нечёткого семантического поиска задача не взлетит.

Halifers

14-12-2025 18:43 Halifers

я как то перегонял в базы theWord и архив статей сайта IXBIT.com и многих других, и книги из библиотеки Flibusta (есть локальные копии этой библиотеки в которых за 500 тысяч книг), словари Abbyy Lingvo, несколько тысяч. Но они при этом довольно неплохо отформатированы.

Это оригинал статьи в Lingvo x3

Halifers

14-12-2025 18:49 Halifers

nikserg:
короче, "Архивариусы" в архив или натравливать на мелкие библиотеки. без нечёткого семантического поиска задача не взлетит.

да я тоже где то читал о возможностях поиска с учетом синонимов но это было давно, еще до массового взлета нейронных сетей. Я к массовому явлению нейронных сетей уже забросил это занятие.


UserName
Password