
초록
인공지능은 화학에서 점점 더 중요한 도구가 되었지만, 그 영향력은 화학 문제를 기계학습용으로 어떻게 정의하느냐에 따라 제약을 받는 경우가 많다. 이 개인 단평(Personal Account)에서 저자는 데이터셋 구축이 AI 기반 화학에서 단순한 준비 단계가 아니라 새로운 화학 학습 문제를 정식화하는 수단으로서 중심적인 역할을 한다고 주장한다. 저자는 분자 물성 예측, 물성 조건부 분자 설계, 반응 메커니즘 예측이라는 세 영역에서 기계학습에 바로 활용할 수 있는 데이터셋을 구축한 최근의 노력을 정리한다. 실험으로 측정한 광학 물성 데이터셋은 환경적 맥락을 명시적으로 반영하도록 정리되어, 모델이 실제 실험 조건을 반영하는 구조-환경-물성 관계를 학습하고 기능성 발색단의 역설계를 지원할 수 있게 하였다. 화학 반응성에 대해서는 규칙 기반으로 기본 단계(elementary step)를 보완하여 대규모 메커니즘 데이터셋을 구축하였고, 이를 통해 전체 반응을 메커니즘 예측을 위한 지도학습 문제로 변환하였다. 서열 기반 반응 모델의 한계는 FlowER의 개발로 이어졌는데, 이 모델은 결합-전자 행렬(bond-electron matrix)을 이용해 반응을 전자 재분배 과정으로 표현하고 질량 보존을 구조적으로 강제하여 양자화학적 검증과 직접 통합할 수 있다. 이들 연구는 종합적으로, 데이터셋·표현·모델·후속 워크플로를 화학적 직관에 따라 함께 설계하는 통합적 관점을 보여준다. 데이터셋 구축을 문제 정의의 행위로 바라봄으로써, 이 단평은 화학자가 화학적 발견의 도구로서 인공지능의 범위와 방향을 어떻게 형성할 수 있는지를 강조한다.
Original abstract (English)
Artificial intelligence has become an increasingly important tool in chemistry, yet its impact is often constrained by how chemical problems are defined for machine learning. In this Personal Account, I argue that dataset construction plays a central role in AI-driven chemistry, not merely as a preparatory step but as a means of formalizing new chemical learning problems. I summarize recent efforts to build machine-learning-ready datasets in three domains: molecular property prediction, property-conditioned molecular design, and reaction mechanism prediction. Experimentally measured optical property datasets were curated to explicitly incorporate environmental context, enabling models to learn structure-environment-property relationships that reflect real experimental conditions and to support inverse design of functional chromophores. For chemical reactivity, large-scale mechanistic datasets were constructed through rule-based imputation of elementary steps, transforming overall reactions into supervised learning problems for mechanism prediction. Limitations of sequence-based reaction models motivated the development of FlowER, which represents reactions as electron redistribution processes using bond-electron matrices and enforces mass conservation by construction, allowing direct integration with quantum chemical validation. Together, these studies illustrate a unifying perspective in which datasets, representations, models, and downstream workflows are designed jointly, guided by chemical intuition. By framing dataset construction as an act of problem definition, this Account highlights how chemists can shape the scope and direction of artificial intelligence as a tool for chemical discovery.