Journal Search Engine
Download PDF Export Citation Korean Bibliography PMC Previewer
ISSN : 1225-4517(Print)
ISSN : 2287-3503(Online)
Journal of Environmental Science International Vol.31 No.7 pp.555-567
DOI : https://doi.org/10.5322/JESI.2022.31.7.555

Wastewater Treatment Plant Data Analysis Using Neural Network

Jeong-sig Seo, Tae-wook Kim1), Hae-kag Lee2), Jong-ho Youn*
Doohyun E&C Co., Ltd., Asan 31517, Korea
1)Department of Energy and Environmental Engineering, Soonchunhyang University, Asan 31538, Korea
2)Department of Computer Science and Engineering, Soonchunhyang University, Asan 31538, Korea
*Corresponding author: Corresponding author: Jong-ho Youn, Doohyun E&C Co., Ltd., Asan 31517, Korea Phone: +82-41-544-6250
E-mail: younjh4321@naver.com
15/03/2022 21/06/2022 21/06/2022

Abstract


With the introduction of the tele-monitoring system (TMS) in South Korea, monitoring of the concentration of pollutants discharged from nationwide water quality TMS attachments is possible. In addition, the Ministry of Environment is implementing a smart sewage system program that combines ICT technology with wastewater treatment plants. Thus, many institutions are adopting the automatic operation technique which uses process operation factors and TMS data of sewage treatment plants. As a part of the preliminary study, a multilayer perceptron (MLP) analysis method was applied to TMS data to identify predictability degree. TMS data were designated as independent variables, and each pollutant was considered as an independent variables. To verify the validity of the prediction, root mean square error analysis was conducted. TMS data from two public sewage treatment plants in Chungnam were used. The values of RMSE in SS, T-N, and COD predictions (excluding T-P) in treatment plant A showed an error range of 10%, and in the case of treatment plant B, all items showed an error exceeding 20%. If the total amount of data used MLP analysis increases, the predictability of MLP analysis is expected to increase further.



신경망 분석을 활용한 하수처리장 데이터 분석 기법 연구

서 정식, 김 태욱1), 이 해각2), 윤 종호*
(주)두현이엔씨
1)순천향대학교 에너지환경공학과
2)순천향대학교 컴퓨터공학과

    1. 서 론

    오늘날 공공하수처리장에는 처리장에서 처리된 유 출수의 처리수준 파악 및 감시를 위해 원격 감시체계 인 TMS (Tele-Monitoring System)를 운영하고 있 다. 이 TMS 데이터의 측정 항목은 2022년 기준 SS (Suspended Solid), T-N (Total-Nitrogen), T-P (Total-phosphorus), pH, TOC (Total Organic Carbon) 다섯 가지 항목을 측정한다. TMS 데이터는 시간이 지남에 따라 매우 방대한 양이 축적되며 1시 간 데이터 기준 1일 120개, 1년 약 43,800여 개의 데 이터가 저장된다. 이 수질원격감시체계는 전국의 수질 TMS 부착대상 사업장에서 배출되는 수질오염물질의 현황을 24시간 원격으로 감시하는 시스템으로 개별 사업장의 방류구에서 측정된 TMS 데이터는 인터넷을 통해 TMS 관제센터로 전송된다. 전송된 데이터는 데 이터 확인 과정을 거치게 되며, 과정이 끝난 데이터는 환경부나 유관기관에 전송된다(SOOSIRO, 2022). 부착 대상 시설로는 공공폐수 및 하수처리시설 처리 용량이 700 ㎥/일 이상인 처리장은 필수로 TMS를 설치해야 하며, 폐수가 발생되는 제 1-3종 사업장의 경우 일 폐수 배출량 혹은 처리 용량이 200 ㎥/일 이상인 경우 부착이 의무화된다(KECO, 2021).

    TMS 운영은 24시간 감시를 통해 오염물질의 불 법 배출을 저감할 수 있으며, 측정된 데이터는 신뢰 성 있는 장비에서 분석된 값이기 때문에 감시기관에 서는 배출사업장의 처리 현황과 유출사고 발생 시 책 임 소재를 분명히 할 수 있다는 장점이 있다. 각 처 리장 또한 배출 농도를 실시간으로 파악할 수 있기에 사업장의 공정을 개선하는데 이 TMS 데이터를 활용 할 수 있으며 처리수의 수질이 악화될 시 유입수의 처리장 내 체류시간을 증가시켜 유입수를 적절한 처 리를 할 수 있다.(SOOSIRO, 2022) 2021년 기준, 전 국에는 총 4217개의 공공하수처리시설이 운영되고 있으며 일 처리 시설 용량은 약 2,600만 ㎥이며 유 입 하수량은 2,000만 ㎥이며 2021년까지의 사업비는 48조원에 달한다.

    환경부는 2021년도부터 ICT (Information Communication Technology) 기술을 하수처리장에 접목하는 스마트 하수도 사업 진행을 시작하였다. 스 마트 하수도 사업은 하수처리장의 운영 전반에 ICT 를 기반으로 하여 유입된 하수의 처리를 최적화하고 안정적으로 하수를 처리하는데 그 목적을 두고 있다 (Kim et al., 2019). 이와 같은 ICT 기술의 접목에는 하수처리장의 다양한 데이터 접목이 필수적이다.

    하수처리장에서는 이 TMS 데이터 외에도 유입수 내 오염물질의 농도, 유입수 수온, 폭기조 내 DO 농 도, 슬러지 발생량 등 다양한 운전 데이터를 종합하 여 하수처리장의 유지보수에 사용한다. 이와 같은 데 이터는 ICT에 접목하여 하수처리장의 운전 상태의 분석, 제어, 예측의 도구로 활용될 수 있다(Ju, 2010;Jawad et al., 2021;Wongburi and Park, 2021).

    Ju(2010)는 SOM (Self Organizing Map)을 사용하 여 하수처리 시 운전인자와 처리수질의 패턴분석을 시 도하였다. 이 분석은 도시형 하수처리장의 강우량과 유입우량이 주도적 주요운전인자임을 시사 한 바 있 다. Jawad et al.(2021)과 Wongburi and Park(2021) 은 빅데이터 분석 도구의 적용 시 장단점을 지적하고 특정 하수처리와 막공정에 AI 모델링 기법을 적용하 였다. 현재까지의 대다수 하수처리에 적용된 AI연구는 집중, 다변화 배영된 센서층을 통한 대량의 데이터 구 축에 의존하는 바 크며 수환경 데이터의 본질적 희소 성 때문에 모델링과 장치제어에 편중된 측면이 있다.

    Jeong et al.(2006) 등은 하수처리장 유입 하수의 성상을 분석하여 당시 시간대 별 처리장 내 유입수의 오염물질의 부하에 관한 연구를 진행하여 유입수 내 오염물질이 특정 시간대에 다량 분포하는 특이성을 도출해냈으며 이를 신경망 분석을 통해 유입수의 성 상을 예측하는 연구를 진행하였다. 또한 Im et al.(2021) 등은 기계학습을 활용하여 하수처리 시설 의 COD 농도를 시간에 따라 예측하는 연구를 진행 하여 ARIMA (Auto-Regressive Integrated Moving Average) 분석은 과거분 데이터만으로 이후 유입수 값을 어느 정도 예측 가능하다는 점과 그 한계점에 대해 고찰하였다.

    본 연구에서는 세계 유수 기업 및 각 국 정부의 스마트 하수처리장 사업 전개에 따른 실험적 연구의 일환으로 다층 퍼셉트론 분석으로 대표되는 신경망 분석 기법과 회귀분석 및 평균 제곱근 오차 분석 RMSE (Root mean Square Error)을 활용하여 활용 성을 개진해 보고자 하였다. 연구에 사용한 자료는 충청남도 소재 2개 공공 하수처리장의 36개월(2018 년 1월-20220년 12월) 간 데이터를 취합하여 활용하 였다. 분석은 2020년 기준 측정항목이었던 SS, T-N, T-P, COD 네 가지 항목 및 전력사용량을 기본데이 터로 사용하였다.

    2. 분석방법

    2.1. 데이터 사전 준비

    연구에 사용된 데이터는 두 가지로 분류되며, 제공 받은 약 130,000개의 TMS 데이터를 시계열 순으로 정리하였으며 각 데이터를 1일 평균으로 환산하여 1,095개의 일 평균 데이터로 가공하였다. 또한 처리 장에서 제공한 유입수 데이터, 수온, 반송량 등의 데 이터를 정리한 TMS 데이터와 매칭 하였다. 이 중 비정상적 측정값은 처리장에서 제공한 보정값으로 치 환하여 분석에 사용하였다.

    2.2. 다층 퍼셉트론 분석 (Multi Layer Perceptron, MLP)

    다층 퍼셉트론 이론은 인공 신경망 분석의 한 가 지 방법이며, 전형적 분석 체계 및 과정은 Fig. 1의 형태를 가진다. 이 분석법은 인간의 뉴런과 유사한 작동 원리를 가진다. 독립변수로 사용되는 항목들은 입력층에, 예측하고자 하는 값은 출력층에 그 값이 나타나게 되며 두 층 사이에는 한 개 이상의 은닉층 이 존재한다. 입력층과 은닉층 사이에서는 계산이 이 루어지며 , 계산 결과는 출력층에서 출력된다. 우측으 로 진행되는 하나의 노드에는 임의의 가중치 값이 부 여되며, 예측값과 실제 값의 계산에 사용되는 활성함 수가 유사하게 계산될 때 까지 노드에 부여된 가중치 의 값을 지속적으로 수정하며 계산이 진행된 다.(Seiffert, 2021)

    MLP 분석은 학습에 전체 중 n%의 데이터를 사용 하고, 학습된 데이터를 나머지 (100-n)%의 데이터로 검증 및 검정하게 된다. 예를 들어 100개의 독립변수 중 70개의 데이터를 학습에, 30개의 데이터를 검증 및 검정에 사용하는 등, 분석의 특성에 따라 학습-검 정-검증의 가중값을 변경할 수 있다. 이 과정에서 사 용되는 독립변수로 활용되는 값이 계속 바뀌게 되며 이러한 이유로 분석 결과의 수치 또한 약간의 차이를 갖는다. 이와 같은 차이를 감소시키기 위해 본 연구 에서는 각 TMS 측정 항목을 9회씩 MLP 기법으로 분석하였다.

    2.3. 예측값의 평가를 위한 회귀분석 및 평균 제곱근 오차 분석 (Root Mean Square Error, RMSE)

    신경망 분석의 결과는 x축에 실제값, y축에 예측 값이 나타나게 되며, 각 축의 값을 동일하게 수정하 였을 때 그래프 기울기가 1인 참조선을 작성하면 앞 선 신경망 분석의 추세와 분포성을 확인할 수 있다. 그러나 이 방법으로는 실제 데이터의 분포나 실제값 과 예측값의 회귀선이 어떤 형태로 나타나는지 파악 하기 어렵다. 이를 파악하기 위해 분석 후 결과 데이 터를 활용하여 회귀분석을 진행하고, 오차의 정도를 파악하기 위한 RMSE 값을 계산하였다. 신경망 분석 을 진행한 4개 오염물질 항목에 대해 회귀분석을 진 행하고, RMSE 분석을 통해 각 항목의 오차를 파악 해 신경망분석의 예측성을 파악하였다. RMSE의 식 은 (1)에 표현하였다(Lee et al. 2022).

    JESI-31-7-555_EQ1.gif
    (1)

    3. 결과 및 고찰

    3.1. MLP 분석 결과

    MLP분석은 대학에서 제공하는 SPSS 26 패키지를 이용하였다. 분석에 사용된 TMS 데이터는 Fig. 2에 나타내었다. 데이터는 불규칙적이고 산포도가 큰 특 성을 나타내었는데 이와 같은 비경향적인 데이터를 MLP 분석의 독립변수로 활용하였다. 효율적인 분석 을 위한 사전조사 차원으로 Fig. 3과 같이 독립변수- 종속변수 grouping에 따른 분석의 효과를 조사하였 다. 첫째로 유입수 수온과 유입 유량을 독립변수로, A 처리장 TMS SS를 종속변수로 설정하여 MLP 분 석을 진행하였을 때, Fig. 3의 (a)와 같이 적절한 예 측을 하지 못하는 것으로 나타났다. Fig. 3의 (b), (c) 에는 5개, 9개의 독립변수를 분석에 사용하였을 때 예측되는 SS의 예측값과 실측값 그래프를 나타내었 다. 그림 (a)에 나타난 것처럼 독립변수의 개수가 충 분치 않을 때에는 MLP 분석의 예측이 비교적 부정 확 하였지만 처리장에서 제공한 공정 데이터를 모두 반영하였을 때 비교적 의미 있는 예측값이 도출되었 음을 확인할 수 있다(Fig. (b), (c)). 이에 슬러지 반 송량, 폭기 유량, 응집제 투입량 등의 다양한 인자들 이 적용된다면 더 신뢰도 높은 예측값을 기대할 수 있을 것으로 추론된다.

    MLP분석은 각 항목 당 9회 반복 분석하였다. 분 석에 사용된 입력층과 은닉층, 출력층의 레이어는 Fig. 4에 나타내었다. 분석은 각 항목의 1시간 데이 터를 일 평균 데이터로 환산하였으며, 이 환산 데이 터와 각 처리장에서 제공한 데이터(유입수 유량, 유 입수 수온, 유입수 SS농도, 유입수 T-N농도, 유입수 T-P농도, 유입수 COD농도, 일평균 유량, 유출수 TMS 내 오염물질 4개 항목)를 MLP 학습에 사용하 도록 하였다. 전체 데이터의 80%는 신경망의 학습에 사용하였으며 나머지 20% 데이터는 검증 데이터로 사용하였다.

    SS, T-N, T-P, COD 항목의 신경망 분석 결과는 다음 Fig. 5-8과 같다. 2개 처리장의 모든 항목 분석 결과 그래프에서 선형의 추세가 발견되었다. 신경망 분석 결과의 타당성을 검정하기 위한 실제 데이터-예 측 데이터 간 회귀분석 결과, 모든 분석에서 유의확률 (p-value)이 0.05 미만으로 나타나 예측값과 실측값 사이에는 상관성이 존재하는 것으로 분석되었다.

    분석 결과로 도출된 모든 항목에서 예측값보다 실 측값의 농도가 높은 것으로 나타났다. 실측 농도가 낮은 구간에서는 예측값과 실측값 사이의 오차가 비 교적 낮은 수준이었으나 실측값의 농도가 비교적 높 은 구간에서는 모든 분석 결과에서 실측값보다 예측 값의 농도가 낮았다. 다층 퍼셉트론 분석의 반복적 계산에 의한 예측치의 미세조정을 통하여 특히 변수 의 고농도 구간에서 실측치와의 유리성이 크게 나타 났다. 이는 제반사정으로 처리장 운영시 비효율적 측 면이 존재한다는 의미로서 해석되며 어떤 방식의 운 전상 개선 요인이 있음을 AI가 예측·제시하고 있다고 사료된다.

    또한 각 처리장의 분석 결과 데이터의 분산성에도 차이가 존재하는 것으로 나타났다. B 처리장의 예측 결과는 A 처리장의 결과보다 예측 차트 내 데이터 포인트의 분산도가 높게 나타났다. RMSE 분석 결과 의 오차 또한 B 처리장의 결과값이 SS와 COD에서 약 6% 높게 나타났으며 2개 처리장의 네 가지 예측 중 1 가지 항목에서는 약 40% 정도의 오차가 있는 것으로 분석되었다.

    하수처리장에서 직접 실험을 통해 측정하는 유입 수 내 오염물질의 농도는 1일 1회만 측정되기 때문 에 MLP 분석에는 1시간 TMS 데이터를 1일 데이터 로 평균 내어 사용하였다. 신경망 분석 학습에 사용 되는 데이터의 총량이 증가하고 데이터 간 상관성이 존재한다는 전제 하, 학습 데이터 규모가 커질 수록 예측성이 높아질 것으로 판단되며 추후 연구에 유입 수 내 오염물질의 농도를 시간 단위로 측정하여 MLP 분석을 진행하면 더 높은 정확성의 예측이 가 능할 것으로 판단된다.

    3.2. 회귀분석 및 평균제곱근오차 RMSE 결과

    9번 시행한 신경망 분석의 회귀분석 및 RMSE 분 석 결과는 위 Table 1에 나타나 있다. A 처리장과 B 처리장의 모든 TMS 항목에서 p값이 0.05 미만으로 나타났기 때문에 예측값과 실측값의 상관성이 존재할 것으로 판단된다. 또한 각 회차의 RMSE 분석 결과 와 RMSE 분석 평균값 사이의 오차는 5% 미만인 것 으로 나타나 각 MLP 분석 결과의 편차가 크지 않은 것으로 나타났다.

    Table 2에는 9회 실행한 RMSE 평균값이 제시되 었다. A 처리장의 경우 T-P의 RMSE 값이 평균 TMS 값의 45% 정도로 나타났으며 나머지 3개 항목 에서는 평균값의 약 20% 정도로 나타났다. B 처리장 의 경우 T-P에서 39%오차가 발생하였으며 나머지 3 개 항목은 30% 미만의 오차가 나타났다.

    앞선 3.1절에서 언급한 바와 같이 위 RMSE 오차는 하수처리장에서 별도로 수집하지 않은 공정 인자들을 적용한다면 RMSE 오차도 줄어들 것으로 판단된다.

    3.3. 전력사용량 예측 및 분석

    A, B 처리장에서 제공한 전력사용량을 종속변수로, 앞서 사용한 데이터들을 독립변수로 활용하여 MLP 분석을 진행한 결과는 Fig. 9에 나타내었다. A 처리장 의 경우 예측된 전력사용량 (신경망 분석) 보다 실제 전력소모량이 소폭 많음을 보여준다 (분산 추세선이 45°점선 이하로 상당히 완만함). 즉 데이터 자체로 예측되는 전력소모량보다 실제 전력이 과다 사용되고 있다는 반증이므로 운영유지상 개선의 여지를 보여주고 있다. B 처리장의 경우는 분산추세선이 A에 비해 우상 향하고 있어 예측 대비 실제전력사용량이 보다 일치하 는 경향을 보였다. 이를 종합하면 A처리장보다 B처리 장의 운영관리가 더 효율적임을 암시하며 산화구 방식인B 처리장의 저동력 특성이 반영되었다고 볼 수 있다.

    A 처리장의 RMSE 값은 1,132로 계산되었으며 B 처리장의 RMSE 값은 478로 각각 실제 전력사용량 평균치의 6.49%, 5.17% 수준의 오차 수준은 보였다. 전력사용량 또한 앞선 TMS 분석과 마찬가지로 유의 미한 경향성이 나타났다.

    4. 결 론

    본 연구에서는 현재 운영 중인 하수처리장의 TMS 데이터를 활용하여 대표적 신경망 분석법의 하나인 MLP 분석을 진행하였다. 결론은 다음과 같다.

    첫째, MLP 분석 결과는 분석의 예측값과 각 오염 물질의 실측값 사이에 우상향의 선형 관계가 성립함 을 보여주었다. 이는 각 하수처리장의 운영 상황에 대하여 운전 계획 및 유지 전략에 따른 “예측 가능 한” 운전이 진행되고 있다고 설명될 수 있다.

    둘째, MLP 분석 결과의 타당성을 검증하기 위한 RMSE 분석 결과 각 처리장별로 상이한 오차 수준이 나타났다 (10%-40%). A 처리장의 경우 SS, T-N, COD의 데이터는 10%대 오차 범위를 보였고 T-P는 40%대로 상당한 오차를 보였다. 반면 B 처리장의 경 우 전 항목이 20%를 상회하는 높은 오차를 나타내었 다. 즉, 인공지능적 접근법으로는 A 처리장의 SS, T-N, COD가 상당히 안정적 수준으로 유지ㆍ관리되 고 있다고 판단할 수 있다. 다만, 처리장 고유 특성 에 대응하는 신경망 모델 자체의 불확실성 때문에 100% 확신하지 못하나 분석추세로 수렴적인 패턴확 보가 가능하다고 사료되어 부분적 운영개선 제안은 가능하리라 본다.

    셋째, 본 연구에서 일일 평균으로 환산된 TMS 데 이터를 1시간 데이터 원본을 사용하여 MLP 분석을 진행하면 학습과 검증에 사용되는 데이터의 표본 개 수가 대폭 증가하기 때문에 더욱 정확한 예측이 가능 할 것으로 판단된다. 단, 이 경우에 독립변수로 활용 되는 수온 등의 데이터 또한 1시간 단위로 측정되어 야 분석에 활용할 수 있다. 전력사용량 또한 학습 데 이터의 총량이 증가할 때 비교적 더 높은 수준의 예 측성을 보일 것으로 판단된다.

    Figure

    JESI-31-7-555_F1.gif

    Typical MLP process layout.

    JESI-31-7-555_F2.gif

    Time series data graphs for tow WWTPs.

    JESI-31-7-555_F3.gif

    A pre-test result for MLP analysis (a), independent variable(IV)=1; (b), IV=5; (c), IV=9.

    JESI-31-7-555_F4.gif

    Four trials for our NN analysis : (a), SS ; (b), T-N ; (c), T-P; (d), COD.

    JESI-31-7-555_F5.gif

    MLP results after 9 times calculations for SS in WWTP A(top) and B(bottom).

    JESI-31-7-555_F6.gif

    MLP results after 9 times calculations for T-N in WWTP A(top) and B(bottom).

    JESI-31-7-555_F7.gif

    MLP results after 9 times calculations for T-P in WWTP A(top) and B(bottom).

    JESI-31-7-555_F8.gif

    MLP results after 9 times calculations for COD in WWTP A(top) and B(bottom).

    JESI-31-7-555_F9.gif

    MLP analysis results of A and B WWTP electricity power usage. a) : A WWTP ; (b) : B WWTP.

    Table

    Results of RMSE and P value

    RMSE results for two WWTPs

    Reference

    1. Gardner, M. W. , Dorling, S. R. ,1998, Artificial neural networks (the multilayer perceptron) a review of applications in the atmospheric sciences, Atmospheric Environment, 32, 2627-2636.
    2. Im, J. M. , Joo, H. K. ,2021, Big data analysis and forecasting of sewage treatment facilities using machine learning, Korean Institute of Industrial Engineering, 1316-1322.
    3. Jawad, J. , Hawari, A. H. , Zaidi, S. J. ,2021, Artificial neural network modeling of wastewater treatment and desalination using membrane process : A Review, Chemical Engineering, 419, 129-540.
    4. Jeong, H. S. , Lee, S. H. , Shin, H. S. , Song, E. Y. ,2006, Analysis and prediction of sewage components of urban wastewater treatment plant using neural network, J. Korean Soc. Environ. Eng., 28(3), 308-315.
    5. Ju, C. H. ,2010, A Study on the operation of domestic municipal sewage treatment plants using neural network pattern analysis, MS Thesis, Chonnam National University.
    6. Karlik, B. , Olgac, V. ,2010, Performance analysis of various activation functions in generalized MLP architectures of neural networks, Int. J. Adv. Engr., 1(4), 111-122.
    7. Korea Environment Corporation (KECO),2022, https://www.keco.or.kr.
    8. Kim, S. T. , Lim, B. I. , Oh, H. T. , Park, K. H. ,2019, An Analysis on economic effects of smart sewage pipe, Journal of Convergence for Information Technology, 9(7)78-84.
    9. Kim, Y. Y. , Lee, S. J. ,2010, Evaluation of water quality for the Han River tributaries using multivariate analysis, J. Korean Soc. Environ. Eng., 33(7), 501-510.
    10. Köhler J. , Turnheim B. , Hodson M. ,2020, Low carbon transitions pathways in mobility: Applying the MLP in a combined case study and simulation bridging analysis of passenger transport in the Netherlands, Technological Forecasting and Social Changes, 151-162.
    11. Lee, S. M. , Park, K. D. , Kim, I. K. ,2022, Comparison of machine learning algorithms for Chl-a prediction in the middle of Nakdong River (focusing on water quality and quantity factors), J. Korean Soc. Water Wastewater, 34(4), 277-288.
    12. Seiffert, U. ,2021, Multiple layer perceptron training using genetic algorithms, European Symposium on Artificial Neural Networks, 159-164.
    13. SOOSIRO,2022, http://www.soosiro.or.kr.
    14. Wongburi, P. , Park, J. K. ,2021, Big data analytics from a wastewater treatment plant, Sustainability, 13, 12383.
    1. SEARCH
    2. Online Submission

      submission.kenss.or.kr

    3. KENSS

      The Korean Environmental
      Sciences Society

    4. Editorial Office
      Contact Information

      - Tel: +82-51-514-1752
      - Fax: +82-51-514-1210
      - E-mail: kenss@hanmail.net