Блог Lingtrain
Фотословарь для китайского
Автор: averkij | Опубликовано: 2026-05-17 | Категория: Новости

Сделал небольшой помощник для чтения книг на китайском. Составляет словарь из HSK слов заданных уровней по фотке страницы с текстом. Слова можно помечать — добавлять в списки или скрывать. Скрыть можно, например, самые простые слова типа частицы 的 или другие уже знакомые, тогда они не будут показываться при следующих сканированиях. К словам, добавленным в список, можно возвращаться позднее, чтобы их повторить. Их тоже можно не показывать при следующих сканированиях, если отжать галочку «уже добавленные» при поиске.
Работает распознавание при помощи модели PaddleOCR. Работает всё локально на CPU, сама модель для распознавания маленькая, около 11 Mb, поэтому работает довольно быстро. В режиме быстрого распознавания, строки ищутся эвристиками и работает всё еще на несколько секунд быстрее, но менее надежней.
Пороги распознавания можно задавать в настройках, если что-то не распозналось.
Можно добавлять в списки слова вне готовых HSK словарей, особенно полезно для имён так как имена лично меня особенно сильно удивляют каждый раз когда их встречаю. Добавленные слова также будут подсвечиваться, если нажать на галочку «Мои слова».
Списки пока что это просто списки, без систем повторений и статусов.
HSK словари собрал с mandarinbean.com, новой версии (с HSK1 по HSK7-9) и дополнил краткими русскими переводами при помощи GPT 5.5 Pro. Если обнаружите какие-то несоответствия или чего-то не хватает, то пишите в чатик t.me/lingtrain books.
Код приложения упрощу и выложу. Так как и модели и словари локальные, то можно будет запускать у себя и будет работать даже без интернета.