マルチスレッドとgenerator。

 通常の線形の処理なら問題ないのですが、処理を効率化しようとマルチスレッドにすると、処理をする対象をどうやってスレッドに渡そうかと思うことがあります。

たとえば、たこ焼きを焼いています。

たこ焼き器の凹みをなんて呼ぶのかは知らないのですが、タコツボとでも呼びましょう。

タコツボにはかならず1つのタコを入れます。2つ入れてはいけないし、1つも入ってないのもだめです。

たこ焼き職人が1人なら問題ありません。順序よくタコツボにタコを落としていきます。

職人が2人になると、問題が起こります。タコツボに入れたタコは沈んでしまうので、もうひとりの職人が間違ってもう1個のタコを入れてしまうかもしれません。

それを防ぐためにはタコツボを管理する人が必要です。タコツボを差し出しておいて、どちらかの職人がタコを入れたらすっと引っ込めて次のタコツボを差し出します。そうすればどちらの職人がタコを入れようが、タコツボには1つのタコだけが入ります。


なんて、よくわからない喩え話ですが、要は処理したいシーケンスがあり、そのシーケンスのアイテムは一度だけ処理されればよい、なのでスレッド外で誰かが管理しないといけない、ということです。

リストですと、シングルスレッドならば

for item in itemlist:

で片付きます。ところがマルチスレッドにするといきなりずっこけます。というか、どう言うコードを書いたらいいものかと考えてしまいます。

1つは明らかにitemlistのインデックスを管理するカウント変数を用意して、各スレッドは自分がitemを受け取ったらそのカウント変数を+1する方法です。当然ならそのカウント変数はグローバルになるでしょうから、スレッドセーフではありません。なので、itemを受け取ってカウント変数を+1するまでは、ロックしておかないといけません。

ところがこれがインデックスで管理できるものならよいのですが、たとえばディレクトリツリーを探索する、みたいな感じだとそうも言っていられません。ツリーが巨大になると、そのツリーをリスト化するだけでも結構な時間がかかります。

そこでgeneratorです。アイテムを返すジェネレータを1つだけ用意し、各スレッドから排他的にデータを受け取れれば、二重に処理されるということもありません。

ということで、こんな風にしてみました。


import threading
from random import random
from time import sleep



def get_word():
	l = """
Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!
"""
	s = l.split(" ")
    for t in s:
        yield t

def tthread(name=""):
    waittime = random()
    while True:
        with lock:
            try:
                t = gen.__next__()
            except StopIteration as e:
                break
        print(f"{t}", end=" ")
        sleep(waittime)


def main():
    t1 = threading.Thread(target=tthread)
    t2 = threading.Thread(target=tthread)
    t1.start()
    t2.start()

gen= get_word()
lock = threading.Lock()
main()
もとの文は PEP 20です。
lockを取得できたら1単語もらって表示する、というだけですが、__next__()がいい仕事してくれます。

0 件のコメント:

コメントを投稿

Vimの補完プラグインをインストール。その4

Vimの補完プラグインをインストール。その3 で、 ddc-tabnine が使えそうです、などと書いたのですが、早速やってみました。 まず、tabnineのバイナリを用意しないといけません。がどうにもTabNineのサイトがわかりにくいので、 tabnine-nvim にあるダ...