Как реализовать параллельную обработку задач с помощью `multiprocessing.Pool()`?

Краткий ответ

Использовать multiprocessing.Pool для параллельной обработки задач можно следующим образом:

Создать пул процессов с помощью Pool(processes=N), где N - количество процессов.
Передать функцию и итерируемый объект с данными в методы pool.map(func, iterable), pool.apply(func, args) или pool.apply_async(func, args). map возвращает результаты в том же порядке, что и входные данные. apply блокирует до завершения, apply_async - нет.
После выполнения задач закрыть пул pool.close() и дождаться завершения всех процессов с помощью pool.join().

Пример:

    
      import multiprocessing

      def worker(x):
        return x * x

      if __name__ == '__main__':
        with multiprocessing.Pool(processes=4) as pool:
          results = pool.map(worker, [1, 2, 3, 4, 5])
          print(results) # Output: [1, 4, 9, 16, 25]

Важно: убедитесь, что код, выполняемый в процессах, сериализуем.

Полный ответ

Реализация параллельной обработки задач с помощью `multiprocessing.Pool()` включает в себя несколько ключевых шагов:

Импорт необходимых модулей: Необходимо импортировать модули `multiprocessing` и, возможно, другие библиотеки, нужные для выполнения задач.

import multiprocessing
import time # для примера

Определение целевой функции: Создайте функцию, которая будет выполнять обработку одной задачи. Эта функция будет выполняться параллельно несколькими процессами.

def worker_function(item):
    # Здесь код обработки одного элемента 'item'
    print(f"Обрабатываю элемент: {item} в процессе {multiprocessing.current_process().name}")
    time.sleep(1) # Имитация сложной работы
    return item * 2 # Пример возвращаемого значения

Создание пула процессов `multiprocessing.Pool()`: Создайте экземпляр `multiprocessing.Pool()`, указав количество процессов, которые будут использоваться. Если количество процессов не указано, используется количество ядер процессора. Важно выбрать разумное количество процессов, чтобы избежать чрезмерной нагрузки на систему.

if __name__ == '__main__': # Обязательно для Windows
    pool_size = multiprocessing.cpu_count()  # Используем количество ядер процессора
    pool = multiprocessing.Pool(processes=pool_size)

Передача задач в пул: Используйте методы `pool.map()`, `pool.apply_async()` или `pool.imap()` для распределения задач между процессами в пуле.
- `pool.map(func, iterable)`: Применяет функцию `func` к каждому элементу из `iterable` и возвращает список результатов в том же порядке, что и в `iterable`. Работает блокирующе, то есть ждет завершения всех задач.
- `pool.apply_async(func, args=(), kwds={})`: Асинхронно применяет функцию `func` с аргументами `args` и ключевыми словами `kwds`. Возвращает объект `AsyncResult`, который позволяет получить результат позже. Неблокирующий вызов.
- `pool.imap(func, iterable, chunksize=1)`: Похож на `pool.map()`, но возвращает итератор, который выдает результаты по мере их готовности. Параметр `chunksize` определяет, сколько задач отправляется на процесс за один раз, что может повысить производительность. Неблокирующий (возвращает итератор).
Закрытие пула и ожидание завершения задач: После отправки всех задач необходимо закрыть пул с помощью `pool.close()` и дождаться завершения всех процессов с помощью `pool.join()`. Важно выполнить эти действия, чтобы избежать проблем с ресурсами.

    pool.close()
    pool.join()
    print("Все задачи завершены.")

Пример полного кода:

import multiprocessing
import time

def worker_function(item):
    print(f"Обрабатываю элемент: {item} в процессе {multiprocessing.current_process().name}")
    time.sleep(1)
    return item * 2

if __name__ == '__main__':
    pool_size = multiprocessing.cpu_count()
    pool = multiprocessing.Pool(processes=pool_size)

    items = [1, 2, 3, 4, 5]

    # Используем pool.map()
    results = pool.map(worker_function, items)
    print(f"Результаты (map): {results}")

    # Закрываем пул и ждем завершения
    pool.close()
    pool.join()

    print("Все задачи завершены.")

Важные замечания:

`if __name__ == '__main__':` Обязательно используйте `if __name__ == '__main__':` при работе с `multiprocessing`, особенно на Windows. Это необходимо для предотвращения рекурсивного запуска процесса при создании новых процессов.
Глобальные переменные: Будьте осторожны с использованием глобальных переменных. Каждый процесс получает свою копию глобальных переменных, поэтому изменения в одном процессе не будут видны в других. Для обмена данными между процессами используйте очереди (`multiprocessing.Queue`) или разделяемую память (`multiprocessing.Value`, `multiprocessing.Array`).
Pickle: Данные, передаваемые в процессы, должны быть сериализуемы с помощью `pickle`. Не все объекты можно сериализовать.
Обработка исключений: Обрабатывайте исключения внутри `worker_function`, чтобы избежать завершения всего пула процессов при возникновении ошибки в одном процессе.
Производительность: Не всегда параллелизация приводит к увеличению производительности. Накладные расходы на создание процессов и передачу данных могут перевесить выгоду от параллельной обработки для небольших или быстро выполняющихся задач. Профилируйте код, чтобы определить, действительно ли параллелизация необходима.

Хотите сохранять прогресс подготовки? Тогда пройдите регистрацию на сайте.

Нашли ошибку?