はずれ値をどうするか?

この図「モズク生産漁協の生産順位推移」は養殖モズク生産漁協ごとの順位を示したものである。本誌2号表紙に掲載したものだが、沖縄県もずく養殖業振興協議会が発表したデータ2013~2018年を基にしている。
生産量予測する場合、それぞれの漁協の箱ひげ図を作ってみると、
⓵知念 上、
⓶恩納村 上、
⓷宮古島 下、
④八重山 上、
⑤今帰仁 上、
⑥沖縄市 上、
の各漁協の上限の上に(宮古島漁協の場合は下限の下)はずれ値が存在する。
この外れ値の存在を以降の予測値算出にどのように扱うかが精度に大きく関わってくる。除外するか、除外し上限値とするか?(下限値の下に存在する場合はその逆)。
そもそもはずれ値とは、滅多に発生しない、他のデータから大きくはずれた数値。これをデータに入れて予測値を計算すると、結果もはずれてしまう。
ことしの5月ごろ、すべてのデータで相関係数分析をした。はずれ値を排除しないまま2019年の生産量を予測すると、結果、はずれてしまった。
以前、ウエハラの友人で、水産振興団体の職員がいるが、ウエハラが「いま、計量経済に取り組んでいる」と言うと、
「あんなの当てにならない。不都合なデータは排除するから」
と言っていた。つもり、データを恣意的に扱っていると主張していた。
だが、データの排除は、なにを分析するか?ということにもよる。人間社会行動の分析をする際、はずれ値については細心の配慮が必要だ。今回の場合、なにがはずれ値かは、恣意的に決めるのではなく、プログラム言語Rが出したもの。
いずれにしても、はずれ値問題は慎重に扱っていきたい。