集計の天敵「ゴミ(ごみ)データ」の対処について考える

あれ?集計結果がなんか違うかも・・

ゴミデータが含まれると集計でおかしな結果が表示されてしまいます。
この結果がおかしいと業務に影響を与えるばかりでなく、最悪は経営の判断にも影響を与えかねません。
そのため、ゴミの取り扱いは私たちの日常生活のごとく、使えるデータ、使えないデータの分別を慎重にしなくてはなりませんね。
ゴミデータは集計値を変えてしまいます

集計時の天敵である「ゴミデータ」とは

ここで、お話しする「ゴミデータ」とは、便宜的な表現です。一言で言えば、「集計に問題が発生し得るデータ」と言えますし、他にも、「不確定データ」、「エラーデータ」、「欠損・破損データ」とも言えます。
このようなデータが集計をおかしな結果にしかねませんし、もし集計結果で値がおかしいことに「気づけられれば」不幸中の幸いとも言えます。
なお、注意点としては、この意味の捉え方は、実際での業務内容や集計時に何を求めるかなどにより、ゴミデータにはならない場合もあるという点です。
そのためご自身の業務内容に当てはめてみて、必要と思えるところがあれば参考にしてもらえればと思います。

ゴミデータの種類

Excelでの集計でのゴミデータには、いくつか種類があります。分別してみると下記の通りです。
※ここで挙げているのはイメージや考え方に近く、厳密に分類できない点にもご注意です。。。

1.構造的(文法的)に欠陥のあるデータ
一定の規則に基づいてないデータを指します。例えば、本来なら数値のみの項目にもかかわらず、文字が含まれているような場合です。あるいは、必須項目にもかかわらず空白になっている、メールアドレスに「@」が無い場合等です。
Excel特有で見ると、本来なら1件(行)ずつ入力するところを、同じ項目名ということでセルを結合している場合もこの部類に入ります。

2.内容に誤りのあるデータ
構造的、文法的にはクリアできているが、入力した内容そのものに誤りがあるデータです。例えば、住所等の項目の入力ミスや、そもそも(入力元となっている)原稿自体の誤りがあった場合等があります。
※この種類のデータを修正するためには、絶対に正しいデータが必要です。これがないと入力内容が間違っているかどうかの判定ができませんので。

3.時間の経過と共に使えなくなるデータ
Excelに入力時は使えていたデータが、時間が経過するとその価値を持たなくなってしまうようなデータです。
例えば、電話番号、メールアドレスがある時期を境に使えなくなったなどです。あるいは移転前の住所等も該当するかもしれません。

上記のようなデータが含まれた状態で集計をすると、予期しない集計結果になる可能性が高いということがお分かりになると思います。

ゴミデータを廃棄するタイミング

では、このようなゴミをいつ、どこで廃棄するかというのが出てきますが、確実に言えるのは遅くとも印刷(集計結果の表示)前に何とかしないといけないわけですね。
ゴミデータを取り除くタイミングについて

となると、残りは2つで、「入力時」と「集計時」になります。

【入力時】データのチェックをする
このタイミングで必要なことは、そもそもの部分で「ゴミを作らせない(入力させない)」仕組みにすることです。
Excelにはシートの保護、入力規則、条件付き書式、(上級者向けですが) 入力専用の画面の(フォーム)作成などがありますので、少なくとも先に挙げた構造的に問題のあるデータはこの時点ではじくことができます。

【集計時】ゴミを避けて集計する
関数やフィルタを駆使して集計の邪魔になるゴミを取り除く(取り除いた状態にして集計する)必要があるということですね。

主にこの2つのタイミングが考えられると思います。どちらが適しているのかは各々の状況次第と言えそうです。ただ、可能であれば前者が望ましいです。
なぜならば、後者の場合、集計の種類が「複数」必要となった場合にその都度ゴミデータを取り除くことを意識しなくてはならないからです。

一方、望ましいと申し上げた前者でも「内容に誤りのあるデータ」、「時間の経過と共に使えなくなるデータ」等で防ぎきれないデータもあります。
そこで、適宜あるいは一定期間ごとに、データの見直しをして精度や純度、鮮度を保っておくことが必要です。

ただし、基本的に、データは一度削除すると元に戻せません。その点を踏まえて考える必要があることには十分ご注意です。

ゴミデータを意識しない、させない

データ入力代行業務では、「データのクリーニング」や「名寄せ」とも呼ばれたりしますが、「使えるデータ」の状態を保っておけば、集計時に「あっ、あのデータが入ってないか気を付けないといけない」を意識する必要がなくなります。
言い換えれば、「きれいなデータしかないからいつでも集計できる」とも言えますね。
こうすることで、他の大事なことに意識を集中できます。これは目でこそは見えませんが「その影響は大きい」と思います。

確定できないデータはメンテナンスが必要

Excelに入力したデータには、「確定できるもの」と「確定できないもの」があります。確定できない場合、データ入力時に縛りを効かせた仕組みにしておくと後々のデータメンテナンスが楽になります。
とはいえ、この方法だけではゴミデータを捌ききれないのは既に説明したとおりです。
入力したデータが数千~数万件以上あるときに、Excelの関数と一般機能だけでゴミデータを探り当て、それに対処するのは至難の業です(もちろんデータにもよりますが)。

弊社の経験では、お客様のご依頼により、1つの表が数十件から100万件前後で構成されているデータの精査をしてきました。件数(行数)が少なくても項目数(列数)が多い場合や、万単位のデータの場合、プログラムを作成した処理が必要でしたが、それでも1件で数十秒(×100万件[の場合])かかり、かつ最終的には目視チェックも必要でした。
このように確定できないデータのメンテナンスは「常には」不要かもしれません。ですが、集計対象となり得るデータならば、不定期でもメンテナンスをする必要がある点には十分注意です。

タイトルとURLをコピーしました