пятница, 8 февраля 2013 г.

документы для вхождения в наследование

Извлекает участок текста, заключенный между запятыми, как метаданные FirstNNN (часто используется в качестве замены для Title).

В случае сбоя при автоматическом определении языка метаданные установят это значение.

Identify each document's language and associate it as metadata. Note that this is done automatically if input_encoding is auto.

Добавляет информацию об аббревиатуре в текст документа.

Extract acronyms from documents and add them as metadata to the corresponding Greenstone archive documents.

Ищет jpg файл (с таким же именем, что и обрабатываемый файл) и связывает его с документом в качестве обложки.

Обычное выражение для согласования имен файлов, которые не должны быть переданы последующим приложениям. Это может предотвратить появление сообщений об ошибках в файлах, которыми вы не интересуетесь. Некоторые приложения по умолчанию имеют выражения блокирования значения, например, HTMLPlug блокирует файлы с расширениями .gif .jpg .jpeg .png .rtf и .css расширениями.

Обычное Perl-выражение для согласования имен файлов (например, для определения местонахождения файлов с определенным расширением). Оно указывает на файл, который обрабатывается приложением . Каждое приложение имеет значение по умолчанию (значение по умолчанию HTMLPlug - (? i) .html? - т.е. файл с раширением .htm или .html).

Кодировка, которая используется в случае, если для опции input encoding установлено значение auto или обнаружены сбои автоматического кодирования.

Кодировка символов исходных документов. Значение по умолчанию должно автоматически решить проблему кодировки для каждого индивидуального документа. Иногда полезно установить это значение, хотя, например, если вы точно знаете, что все ваши документы находятся в ASCII, установка входной кодировки ascii значительно увеличивает скорость импорта и формирования вашей коллекции. Существует множество допустимых значений. Для получения их полного списка воспользуйтесь pluginfo.pl BasPlug.

Опции, применяемые для всех приложений

В Таблице приведены опции, принимаемые любым приложеним, полученным от BasPlug.

Вы легко можете написать новые приложения для обработки форматов документов, не предусмотренных в существующих приложениях, форматирования документов особыми способами или извлечения из документов новых видов метаданных.

Чтобы узнать больше о любом из приложений, напечатайте pluginfo.pl plugin-name в области командной строки. (Сначала, вы должны вызвать соответствующий скрипту setup, если вы этого не делали ранее. Если ваша операционная система не настроена на то, чтобы воспринимать файлы с расширением .рl как выполнимые программы на языке Perl, то в Windows вы должны напечатать perl —S pluginfo.pl plugin-name). В результате на экране появится информация об интересующем вас приложении - какие данному приложению требуются специфичные опции и какие общие.

Приложения написаны на языке Perl. Все они происходят от основного приложения BasPlug, которое выполняет книверсальные операции, такие как создание нового документального архива Greenstone для последующей работы с ним, назначение идентификатора объекта (OID), обработка разделов документа. Приложения хранятся в директории perllib/plugins.

Приложения анализируют импортированные документы и извлекают из них метаданные. Например, HTML-приложение конвертирует HTML-страницы в формат архива Greenstone и извлекает метаданные, которые являются явным в формате документа - такие, как заголовки, заключенные тегами <title></title>.

Коллекции могут быть индивидуализированы таким образом, чтобы разграничить содержащуюся в них информацию различными способами доступа. Настоящая глава описывает, как Greenstone извлекает информацию из документов и представляет ее пользователю: Раздел - Обработка документов, Раздел - Классификаторы, Разделы и -инструментальные средства интерфейса пользователя.

Chapter 2 Получение большего от ваших документов

ЦИФРОВАЯ БИБЛИОТЕКА GREENSTONE РУКОВОДСТВО

Получение большего от ваших документов

Комментариев нет:

Отправить комментарий