Приводятся результаты применения методов машинного обучения для прогнозирования золоторудной минерализации на поисковой стадии геологоразведочных работ на примере Верхнеамгинского щелочного массива Алдано-Станового щита. Использованы данные анализа 403 штуфных проб методом ICP-AES на 25 химических элементов. Протестированы восемь алгоритмов классификации: Random Forest, Support Vector Machine, Neural Network (Multilayer Perceptron), Boosting (AdaBoost), Decision Tree, K-Nearest Neighbors, Linear Discriminant Analysis и Naive Bayes. Наивысшую точность (до 89,6 %) продемонстрировали Random Forest и Support Vector Machine, основанные на выявлении взаимосвязей между рудными элементами (Au, Ag, As, Cu, Sb) и элементами с отрицательной корреляцией (Mg, Ca, Ti). Результаты подтверждены ROC-анализом. При создании модели машинного обучения в качестве целевой переменной приняты значения "рудного" фактора для каждой пробы, использованные в качестве предиктора. С помощью построения аномальных полей значений "рудного" фактора проведено сравнение параметров известных объектов и прогнозируемых площадей. Методы машинного обучения позволяют оперативно и надежно интерпретировать аналитические данные, полученные с использованием спектрометрии или портативных XRF-анализаторов. Для повышения точности прогноза подчеркивается важность комбинации традиционных статистических методов (кластерный, факторный анализ) с современными алгоритмами машинного обучения.
The study reports on the application of machine learning methods for predicting gold mineralization in the prospecting phase of geological exploration. It focuses on the Verkhneamginsky alkaline massif, situated within the Aldan-Stanovoy Shield, as a case study. The investigation included the analysis of 403 ore samples, which were evaluated through Inductively Coupled Plasma Atomic Emission Spectroscopy (ICP-AES) to determine the concentrations of 25 chemical elements. A total of eight classification algorithms were assessed in this investigation, including Random Forest, Support Vector Machine, Neural Network (Multilayer Perceptron), Boosting (AdaBoost), Decision Tree, K-Nearest Neighbors, Linear Discriminant Analysis, and Naive Bayes. The Random Forest and Support Vector Machine algorithms demonstrated the highest accuracy, achieving 89.6%, by identifying the relationships among ore elements (Au,Ag, As, Cu, Sb) and those elements that displayed negative correlations (Mg, Ca, Ti). These results were further validated through Receiver Operating Characteristic (ROC) analysis. In the process of developing the machine learning model, the values corresponding to the “ore” factor for each sample were designated as the target variable, while serving as predictors. To enable a comparative analysis between the parameters of established entities and the predicted regions, anomalous fields of the “ore” factor values were constructed. Additionally, machine learning methods enable the rapid and reliable interpretation of virtually any geochemical analytical data in the field, including data obtained through modern spectrometry methods and portable X-ray fluorescence (XRF) analyzers. The research further underscores the significance of integrating traditional statistical approaches, such as cluster and factor analysis,with contemporary machine learning algorithms to improve the accuracy of predictions.