🔬 테크랩
최신 AI·기술 논문을 한국어 3분 다이제스트로. 난이도·실생활 영향·분야로 가려 읽고, 원문은 버튼 한 번에.
AI 시대의 에어갭 보안: 악성 코드와 AI 에이전트로부터 비밀 정보 보호
에어갭은 마운트 네임스페이스를 활용하여 프로그램 실행 중 파일에서 비밀 정보를 자동으로 제거함으로써 악성 npm 설치 후크나 호기심 많은 AI 에이전트로부터 민감한 데이터를 보호하는 투명한 보안 솔루션입니다.
머신러닝 연구, 재능보다 중요한 마음가짐
세계적인 머신러닝 연구자가 되기 위해서는 재능보다 끈기, 규율, 그리고 기본에 충실한 태도가 훨씬 중요하다.
인간과 AI를 위한 퍼즐 게임 '황혼 전의 탑' 개발기
개발자가 인간과 AI 모두에게 어려운 퍼즐 게임을 만들고, AI가 게임 상태를 분석해 한 번에 전체 해결 계획을 제시하는 방식으로 구현한 과정을 공유합니다.
비개발자의 AI 활용기: 귀찮은 캘린더 업무, 직접 앱 만들어 해결하다
코딩 경험이 전혀 없는 일반인이 AI 도구를 활용해 반복적이고 귀찮은 캘린더 초대장 생성 업무를 자동화하는 앱을 단 두 시간 만에 개발했습니다.
JanusMesh: 3D 시각적 착시를 빠르고 쉽게 만드는 새로운 방법
JanusMesh는 텍스트 설명만으로 3D 물체를 만들어서, 보는 각도에 따라 완전히 다른 두 가지 모양으로 보이게 하는 기술입니다. 기존 방법보다 훨씬 빠르고 자연스러운 착시 효과를 만듭니다.
TimeProVe: 일상생활 활동 장시간 비디오에서 효율적인 시간 추론을 위한 '제안 후 검증' 방식
이 논문은 긴 비디오에서 질문에 답할 때, 기존 방식의 높은 비용 문제를 해결하기 위해 '가설 제안'과 '선택적 검증'을 결합한 새로운 프레임워크 TimeProVe를 제안합니다. 이를 통해 비용은 크게 줄이면서도 성능은 향상시켰습니다.
MemoryWAM: 효율적인 영구 메모리를 활용한 월드 액션 모델링
로봇이 복잡한 작업을 수행하려면 과거 경험을 기억하고 미래를 예측해야 합니다. 기존 모델은 긴 과거를 기억하면 느려지고, 빠르면 짧은 과거만 기억하는 한계가 있었습니다. MemoryWAM은 새로운 메모리 설계로 이 문제를 해결하여, 로봇이 더 효율적으로 장기 기억을 활용해 복잡한 조작 작업을 수행할 수 있도록 돕습니다.
DiffusionGemma는 얼마나 투명한가요?
DiffusionGemma 모델의 내부 작동 방식이 복잡해 보이지만, 중간 과정을 해석 가능한 형태로 만들면 기존 언어 모델만큼 투명하게 이해할 수 있으며, 실제 활용에도 문제가 없음을 보여줍니다.
UNIEGO: 1인칭 시점 비디오 이해를 위한 통합 표현 학습
웨어러블 카메라로 찍은 1인칭 시점 비디오의 한계를 극복하기 위해, 다양한 시점, 모달리티, 그리고 기존 AI 모델의 지식을 통합하여 더 풍부한 비디오 이해 능력을 갖춘 'UNIEGO'라는 새로운 AI 모델을 개발했습니다. 이 모델은 '프록시'라는 중간 단계를 통해 여러 선생님 모델의 지식을 효율적으로 학습합니다.
최적의 결정론적 다중 보정 및 옴니예측
이 논문은 기계 학습 모델의 신뢰성을 높이는 중요한 특성인 '다중 보정'을 달성하는 데 있어, 기존에는 무작위성이 필수적이라고 여겨졌던 문제를 해결하고, 최적의 성능을 내는 결정론적 알고리즘을 제시합니다.
상자로 생각하기: 실제 이미지에서 쉬워진 3D 편집
이 논문은 3D 상자를 이용해 실제 이미지 속 객체의 움직임, 회전, 크기 조절, 시점 변경을 정밀하게 제어하는 새로운 이미지 편집 방법을 제안합니다. 기존 방식보다 훨씬 강력하고 정확한 3D 편집이 가능합니다.
생성형 추천을 위한 분산 사용자 관심 맥락 구조화 및 토큰화
G2Rec은 사용자의 복잡한 행동과 아이템의 의미를 동시에 효과적으로 모델링하여, 기존 추천 시스템의 한계를 극복하고 더 정확한 추천을 제공하는 새로운 프레임워크입니다.
효율성에서 정보 유출까지 – 연합 학습 언어 모델 미세 조정을 통한 프라이버시 백도어
연합 학습 환경에서 효율적인 언어 모델 미세 조정(PEFT) 방식이 사용자 데이터를 유출할 수 있는 새로운 '프라이버시 백도어' 공격 기법이 발견되었습니다. 이 공격은 모델 성능 저하 없이 학습 데이터를 복원할 수 있습니다.
CalTennis: 테니스 영상 기반 3D 자세 추정 벤치마크 데이터셋
CalTennis는 대규모 테니스 영상 데이터셋으로, 단일 카메라 영상에서 3D 자세를 추정하는 기술을 평가하고 개선하는 데 사용됩니다. 기존 데이터셋보다 훨씬 크고, 전문가의 운동 동작을 담고 있으며, 새로운 평가 지표를 통해 기존 기술의 한계를 보여줍니다.
인간의 움직임을 모방하여 로봇 손 디자인 자동 생성하기
인간의 손 움직임 데이터를 활용해 로봇 손의 디자인과 제어 방식을 동시에 최적화하여, 기존 로봇 손보다 뛰어난 성능을 가진 로봇 손을 자동으로 생성하는 새로운 방법을 제시합니다.
토큰은 군(群) 원소: 행렬 리 군(Lie Group)에 대한 리 대수 어텐션
이 논문은 인공지능 모델의 '어텐션' 메커니즘에서 토큰을 단순한 데이터 조각이 아닌, 기하학적 변환을 나타내는 '리 군 원소'로 직접 사용하는 새로운 방법을 제안합니다. 이를 통해 기존 방식으로는 처리하기 어려웠던 복잡한 기하학적 변환을 효율적으로 다루며, 적은 파라미터로도 더 나은 성능을 보여줍니다.
AI가 모방할 수 없는 경쟁 우위: 인간적인 연결의 힘
기술이 아닌 인간적인 연결과 신뢰를 쌓는 것이 AI 시대에 진정한 경쟁 우위이자 모방 불가능한 가치임을 강조합니다.
AI 스타트업 창업자를 위한 플레이북: 클로드 활용 전략
AI 기술, 특히 클로드를 활용하여 아이디어 구상부터 스케일업까지 스타트업 전 과정에서 생산성을 극대화하고 성공적인 AI 네이티브 스타트업을 구축하는 실용적인 가이드입니다.
GLM-5.2, 개방형 AI 모델 성능 지표에서 선두 차지
GLM-5.2 모델이 최신 인공지능 성능 지표에서 기존 모델들을 제치고 개방형 가중치 모델 중 최고 성능을 기록했습니다.
다중 시점 3D 기반 VLM 추론을 통한 제로샷 장기 정교 조작
이 논문은 로봇이 처음 보는 물건이나 도구를 사용해서 복잡한 작업을 할 때, 여러 대의 카메라로 본 정보를 바탕으로 3D 작업 계획을 세우고 실행하는 새로운 방법을 제안합니다.
옴니에이전트: 능동적 인식을 통한 영상 이해의 새로운 접근
기존 영상 이해 모델의 비효율성을 극복하기 위해, 옴니에이전트는 사람이 정보를 탐색하듯 필요한 부분만 보고 생각하며 행동하는 방식으로 긴 영상을 효율적으로 이해하고 분석합니다.
튜링 보상을 활용한 사용자 시뮬레이터 학습
이 논문은 실제 사람처럼 반응하는 인공지능 사용자 시뮬레이터를 만드는 새로운 방법을 제안합니다. 기존 방식과 달리, 이 방법은 AI가 실제 사람과 얼마나 구별하기 어려운지를 평가하는 '튜링 테스트' 방식을 사용하여 시뮬레이터의 성능을 높입니다.
현재 관찰을 넘어서: 제어 가능한 비마르코프 게임에서 멀티모달 대규모 언어 모델 평가
이 논문은 AI가 과거 정보를 기억하고 활용하는 능력을 평가하는 새로운 벤치마크인 RNG-Bench를 소개합니다. 기존 평가 방식의 한계를 극복하고, AI가 보이지 않는 과거 관찰을 재구성하고 이에 따라 행동하는 능력을 집중적으로 측정합니다.
LOCUS: 미국 지방 조례 연구를 위한 대규모 데이터셋
미국 지방 조례는 일상생활에 큰 영향을 미치지만, 기계가 분석하기 어려웠습니다. 이 연구는 LOCUS라는 대규모 데이터셋을 구축하여 지방 조례를 쉽게 연구하고 AI로 분석할 수 있도록 만들었습니다.
인간의 일상 영상으로 로봇에게 정교한 조작 가르치기
인간의 일상생활 영상을 활용하여 로봇이 물체를 정교하게 다루는 방법을 배우는 데 필요한 데이터를 자동으로 생성하는 새로운 알고리즘 'DO AS I DO'를 소개합니다.
UBP2: 불확실성 균형 선호도 계획을 통한 효율적인 선호 기반 강화 학습
이 논문은 사람이 직접 보상을 설정하지 않고 행동 비교를 통해 학습하는 강화 학습(RL)에서, 학습 초기 단계의 비효율성을 개선하기 위해 불확실성을 고려한 새로운 탐색 전략 UBP2를 제안합니다. UBP2는 보상, 동역학, 가치 함수의 불확실성을 동시에 고려하여 데이터를 효율적으로 수집하고 학습 속도를 높입니다.
보상 감독 재고찰: 루브릭 조건부 자기 증류
이 논문은 언어 모델의 추론 능력을 향상시키기 위해, 기존의 비효율적인 학습 방식 대신 루브릭(평가 기준표)을 활용한 새로운 자기 증류 학습 프레임워크를 제안합니다. 이를 통해 모델은 더 세밀한 피드백을 받아 추론 과정을 개선할 수 있습니다.
AI, 생산성 향상의 양날의 검: 아이디어와 브레이크를 잃다
AI는 작업의 마찰을 줄여 아이디어 테스트 비용을 낮췄지만, 이는 미숙한 아이디어를 빠르게 소멸시키고 완벽주의에 빠져 본래 목표를 놓치게 하는 부작용을 낳았다.
fata: 코딩 에이전트를 이끄는 개발자의 역량 강화
fata는 프론트엔드, 백엔드, 기술 설계 등 풀스택 기반 지식을 제공하여 코딩 에이전트를 효과적으로 지휘할 수 있도록 돕는 학습 플랫폼입니다.
쿠버네티스, 이제는 선택 아닌 필수? 개발자 채용 시장에서 본 변화
최근 구직 경험을 통해 거의 모든 기업이 쿠버네티스를 사용하고 있으며, 이는 운영 효율성, 인력 관리, 그리고 성숙한 관리형 서비스 및 풍부한 인력 풀 때문임을 발견했다.
C++ 게임, 웹어셈블리로 이식하며 겪은 난관과 해결책
C++로 개발된 게임을 웹어셈블리(WASM)로 이식하는 과정에서 발생한 주요 기술적 문제점(32비트 포인터, 그래픽스, 오디오)과 그 해결 과정을 공유하는 글입니다.
AI 활용을 의도적으로 돕는 크롬 확장 프로그램 개발
AI 사용 전 사고 모드를 선택하고 사용 후 인지 비용을 기록하여 AI 의존도를 줄이는 크롬 확장 프로그램 'ThinkMode'가 개발되었습니다.
젬마 4로 옛 한국어 번역기 만들기: 문화유산 접근성 향상
경량 AI 모델인 젬마 4를 미세 조정하여 옛 한국어 번역기를 개발, 고문헌 접근성을 높이고 문화유산을 보존하는 가능성을 보여주었습니다.
언어 모델의 '가치 축': 모델은 자신이 올바른 방향으로 가고 있는지 스스로 알고 있을까?
언어 모델은 내부적으로 현재 진행 중인 전략이 목표 달성에 얼마나 성공할지 예측하는 '가치 축'을 가지고 있으며, 이 축을 통해 모델의 자신감, 탐색 행동, 그리고 특정 행동에 대한 선호도를 조절할 수 있습니다.
T-Rex: 촉각 반응형 능숙한 로봇 조작
로봇이 사람처럼 섬세하게 물건을 다루려면 촉각 정보가 중요한데, 기존 로봇들은 이를 잘 활용하지 못했습니다. 이 연구는 새로운 데이터셋과 인공지능 모델을 통해 로봇이 촉각에 실시간으로 반응하여 훨씬 더 능숙하게 물건을 조작할 수 있게 만들었습니다.
인간의 보편적 물체 잡기 능력 모방: 로봇을 위한 새로운 접근법
인간처럼 자연스럽게 물체를 잡는 로봇을 만들기 위해, 스마트 안경으로 수집한 방대한 인간의 물체 잡기 데이터를 학습하여 어떤 물체든 잡을 수 있는 인공지능 모델 HUG를 개발했습니다. 이 모델은 로봇이 일상생활에서 처음 보는 물체도 성공적으로 잡을 수 있도록 돕습니다.
BRDFusion: 도시 장면 역 렌더링을 위한 물리 기반 및 생성 모델의 융합
BRDFusion은 도시 장면의 역 렌더링에서 물리 기반 모델의 정확성과 생성 모델의 사실성을 결합하여, 고품질 비디오 생성과 정밀한 제어를 가능하게 하는 새로운 프레임워크입니다.
로봇 정책 학습을 위한 기하학적 행동 모델
이 논문은 로봇이 3D 공간에서 물체를 조작하는 방법을 배우는 데 도움을 주는 새로운 '기하학적 행동 모델(GAM)'을 제안합니다. 이 모델은 기존의 2D 기반 접근 방식과 달리 3D 기하학 정보를 직접 활용하여 로봇이 더 정확하고 효율적으로 움직이도록 합니다.
에이전트 및 다중 모드 LLM을 위한 상황 인식 강화 학습
LLM이 길거나 복잡한 정보 속에서 핵심 증거를 놓치는 문제를 해결하기 위해, 정답을 뒷받침하는 올바른 맥락을 선택하도록 훈련하는 새로운 강화 학습 방법인 ContextRL을 제안합니다. 이는 코딩 에이전트와 시각적 질문 답변에서 LLM의 성능을 향상시킵니다.
선형 역문제 해결을 위한 정확한 사후 점수 추정
이 논문은 이미지 복원 같은 선형 역문제를 풀기 위해, 기존 확산 모델의 한계를 극복하고 정확한 사후 점수를 추정하는 새로운 학습 방법을 제안합니다. 이를 통해 더 적은 계산으로도 높은 품질의 결과를 얻을 수 있습니다.
신경망 이미지 분류기의 내부 표현에서 '위상'의 중요성: 이미지 분류기에 대한 내부 오펜하임-림 테스트
이 논문은 이미지 분류 신경망이 이미지를 인식할 때, 사람처럼 이미지의 '위상' 정보에 크게 의존하며 '크기' 정보는 덜 중요하다는 것을 실험으로 밝혀냈습니다.
계층적 이점 가중치를 이용한 온라인 강화 학습 기반 VLA 미세 조정
이 논문은 로봇이 복잡한 작업을 학습할 때 성공/실패라는 단순한 결과만으로는 충분한 학습이 어렵다는 문제에 주목합니다. 이를 해결하기 위해 '계층적 이점 가중치 행동 복제(HABC)'라는 새로운 방법을 제안합니다. 이 방법은 성공 가능성과 효율성을 별도로 평가하고, 로봇의 현재 상태에 따라 이 두 가지 목표를 적절히 조절하여 학습 효율을 크게 높입니다. 실제 로봇 실험에서 HABC는 기존 방법보다 훨씬 높은 성공률을 보였습니다.
네이처 포트폴리오 메타분석 논문을 활용한 LLM 에이전트 벤치마킹
최신 LLM 에이전트들이 메타분석의 핵심 단계인 연구 선별에서 어려움을 겪으며, 관련성 높은 논문들 속에서 실제 필요한 논문을 정확히 골라내는 데 한계가 있음을 보여줍니다.
KVEraser: 효율적인 국소적 문맥 삭제를 위한 KV 캐시 조종 학습
KVEraser는 대규모 언어 모델(LLM)에서 이미 처리된 문맥 중 특정 부분을 효율적으로 삭제하는 새로운 방법입니다. 기존 방식은 삭제 후 모든 내용을 다시 계산해야 했지만, KVEraser는 삭제할 부분의 캐시만 교체하여 계산 비용을 크게 줄이면서도 성능 저하를 최소화합니다.
HAMON: 장기 시계열 예측을 위한 수동 광학 시퀀스 혼합 기술
HAMON은 기존 디지털 방식 대신 빛을 이용해 시계열 데이터를 예측하는 새로운 광학 시스템입니다. 특히 장기 예측에서 뛰어난 성능을 보이며, 미래의 광학 하드웨어 개발 가능성을 제시합니다.
개인 개발자를 위한 AI 코딩 비용 절감 전략
개인 개발자가 AI 코딩을 할 때 비용을 절감하는 세 가지 방법을 제시하며, 최적의 방법은 최신 구독 모델과 오픈소스 API를 혼합 사용하는 것임을 강조합니다.
AI 개발 도구를 활용한 홈랩(Homelab) 관리 자동화
작성자는 OpenCode Web UI와 AI 도구를 활용하여 홈랩 서비스의 관리 및 업데이트 과정을 GitOps 방식으로 자동화하고 효율성을 높였습니다.
Pyodide 314.0 출시: 브라우저 속 파이썬의 새로운 표준
Pyodide 314.0 버전은 PEP 783 표준 채택과 새로운 버전 관리 체계를 통해 브라우저에서 파이썬 패키지를 더 쉽고 안정적으로 사용할 수 있게 합니다.
AWS용 에이전트 툴킷으로 전환한 이유: 더 안전하고 효율적인 AI 개발 환경
AWS용 에이전트 툴킷은 기존 커뮤니티 서버의 보안 및 감사 추적 문제를 해결하며, AI 코딩 에이전트가 AWS 리소스를 안전하게 관리하도록 돕는 공식 도구 모음입니다.
AI로 만든 앱, 작동은 하지만 과연 '좋은' 앱일까?
AI가 코드를 빠르게 생성해 앱을 작동시키는 것은 쉬워졌지만, 생성된 코드가 보안, 의도, 안정성 측면에서 '좋은' 코드인지는 별개의 문제이며 개발자의 감사와 판단이 필수적이다.
코딩, 손으로 하던 시대는 끝났을까? AI 시대 개발자의 역할 변화
AI 코딩 도구의 등장으로 프로그래밍 진입 장벽이 낮아지고 있지만, 개발자의 역할은 단순히 코드를 작성하는 것을 넘어 문제 해결과 판단력으로 전환되고 있습니다.
EvoArena: 동적 환경에서 LLM 에이전트의 견고한 성능을 위한 기억 진화 추적
LLM 에이전트가 변화하는 환경에 적응하도록 돕는 새로운 평가 도구 'EvoArena'와 기억 방식 'EvoMem'을 소개합니다. 기존 에이전트들은 동적 환경에서 어려움을 겪지만, EvoMem은 성능을 향상시켜 실제 환경에서의 LLM 에이전트 배포 가능성을 높입니다.
검색 증강 강화 미세 조정을 통한 유추 추론 학습
이 논문은 언어 모델이 복잡한 문제 해결을 위해 '유추' 능력을 배우도록 돕는 새로운 학습 프레임워크를 제안합니다. 기존 검색 방식의 한계를 극복하고, 문제 해결에 실제로 도움이 되는 과거 사례를 찾아 모델의 추론 능력을 강화합니다.
인터리브싱커: 에이전트 기반의 교차 생성 강화
이 논문은 기존 이미지 생성기가 텍스트와 이미지를 번갈아 생성하는 능력이 부족하다는 문제에 주목하여, 이를 해결하기 위한 '인터리브싱커'라는 새로운 다중 에이전트 시스템을 제안합니다. 이 시스템은 계획 에이전트와 비평 에이전트를 활용하여 이미지 생성기의 성능을 향상시키며, 특히 복잡한 시각적 스토리텔링이나 지침 기반 작업에 유용합니다.
마나: 관절형 도구를 능숙하게 다루는 로봇 기술
로봇이 복잡한 관절형 도구를 사람처럼 능숙하게 다루기 위한 새로운 시뮬레이션-실제 연동 프레임워크 '마나'를 소개합니다. 애니메이션 기법에서 영감을 받아, 로봇이 도구를 잡고 조작하는 방법을 효과적으로 학습하고 실제 환경에 적용할 수 있게 합니다.
확장 가능한 공간 생성을 위한 양식 강제 학습
이 논문은 텍스트-이미지(T2I) 모델의 공간 이해 능력을 활용하여, 이미지와 깊이 정보를 동시에 생성하는 '양식 강제 학습'이라는 간단하고 확장 가능한 방법을 제안합니다. 이 방법은 적은 양의 깊이 데이터로도 실제 같은 장면을 만들고, 기존 모델보다 정확한 깊이 예측을 가능하게 합니다.
로봇 범용 정책 개선: 흐름 역전 조종(FRS)을 통한 새로운 접근
로봇이 다양한 작업을 수행하는 '범용 정책'을 더 잘 활용하도록 돕는 새로운 방법인 FRS를 소개합니다. FRS는 로봇의 어설픈 행동을 분석해 더 나은 행동으로 유도하며, 이를 통해 로봇이 새로운 작업을 더 잘 수행하고 학습 효율을 높일 수 있습니다.
대규모 언어 모델을 활용한 사회 및 행동 과학 분야의 자동화된 재현성 평가
이 연구는 대규모 언어 모델(LLM)이 사회 및 행동 과학 분야에서 연구 결과의 재현성을 자동으로 평가할 수 있음을 보여줍니다. LLM은 기존의 사람 기반 평가보다 효율적이며, 상당한 정확도로 원본 연구의 결론을 재현할 수 있습니다.
RepWAM: 시각-행동 토크나이저를 활용한 로봇 세계 행동 모델링
RepWAM은 로봇이 언어 지시를 따르도록 돕는 새로운 세계 행동 모델입니다. 기존 모델과 달리, 시각 정보를 의미 있는 행동으로 연결하는 토크나이저를 사용하여 로봇이 미래를 예측하고 제어하는 능력을 향상시킵니다.
SpatialClaw: 에이전트의 공간 추론을 위한 액션 인터페이스 재고찰
SpatialClaw는 시각-언어 모델이 3D 공간 추론을 더 잘하도록 돕는 새로운 프레임워크입니다. 기존 방식의 한계를 극복하고, 파이썬 코드를 활용하여 유연하게 추론하며, 다양한 벤치마크에서 기존 모델보다 11.2%p 더 높은 정확도를 보였습니다.
로봇 조작을 위한 효과적인 월드 모델, WEAVER: 더 좋고, 빠르고, 오래 지속되는 성능
WEAVER는 로봇이 현실과 유사하게 장기적인 조작 작업을 수행하도록 돕는 새로운 인공지능 모델입니다. 이 모델은 기존 방식보다 더 정확하고, 일관되며, 빠르게 작동하여 로봇의 학습과 계획 능력을 크게 향상시킵니다.
Influcoder: 대규모 데이터 귀속을 위한 디코더 영향력 순위 인코더 증류
LLM 학습 데이터에서 특정 결과에 영향을 미치는 샘플을 빠르게 찾아내는 새로운 방법인 Influcoder를 제안합니다. 기존 영향 함수 기반 방법의 느린 속도와 큰 저장 공간 문제를 해결하여 대규모 데이터셋에서도 효율적인 데이터 귀속이 가능합니다.
그래프 신경망을 위한 잘린 위치 인코딩 이해하기
그래프 신경망(GNN)의 성능을 높이는 위치 인코딩(PE)은 보통 계산 효율을 위해 '잘린' 형태로 사용됩니다. 이 연구는 잘린 PE들이 이론적으로 어떻게 다른 표현 능력을 가지는지 밝히고, 실제 데이터에서는 여러 PE를 혼합하는 것이 가장 좋음을 보여줍니다.
밀집된 지도와 희소한 업데이트: 온-정책 증류의 희소성과 기하학적 특성 연구
온-정책 증류(OPD)는 모델의 파라미터를 미세하게 조정하는 효과적인 방법으로, 업데이트가 대부분 희소하게 일어나며 특정 부분에 집중되지만, 이 과정에서 모델의 중요한 기하학적 특성을 유지한다는 것을 발견했습니다.
IT 체크리스트를 넘어: 사이버 안전을 위한 합리적인 주의 기준 설계
현재 미국 사이버 정책은 물리적 피해를 줄 수 있는 사이버-물리 시스템의 안전을 보장하기에 부족합니다. 이 논문은 위험 기반 추적성, 구조화된 보증 사례, 사이버 복원력 엔지니어링을 통해 더 현대적이고 효과적인 사이버 안전 표준을 제안합니다.
NVIDIA CUDA PC 샘플링: 오픈소스 저오버헤드 성능 분석 기법
Polar Signals는 NVIDIA CUDA PC 샘플링을 활용하여 GPU 성능 병목 현상을 진단하는 저오버헤드 오픈소스 프로파일링 기법을 개발했습니다.
코드는 작동하는데, 과연 문제가 없을까? AI 코드 활용의 맹점
AI가 생성한 코드가 작동하더라도, 전문 지식이 필요한 영역에서는 AI의 한계를 인지하고 비판적으로 검토해야 한다는 점을 강조하는 글입니다.
AI 기반 레트로 던전 게임 'AIventure' 개발기
구글 AI 팀이 Gemini와 Gemma를 활용하여 클라이언트 측 AI 기반의 레트로 던전 웹 게임 'AIventure'를 개발한 과정과 기술적 도전 과제를 소개합니다.
제거 대신 우회: 시각-언어 모델을 위한 복구 가능한 시각 토큰 라우팅
시각-언어 모델의 처리 속도를 높이기 위해 불필요한 시각 토큰을 완전히 제거하는 대신, 나중에 다시 활용할 수 있도록 잠시 우회시키는 새로운 방법을 제안합니다. 이 방법은 모델의 성능 저하 없이 효율성을 개선합니다.
대화형 인공지능을 위한 문맥 기반 점진적 압축 기술
대화형 인공지능이 긴 대화를 효율적으로 처리하면서도 정보 손실 없이 정확도를 유지할 수 있도록, 대화의 핵심 정보를 압축하고 지속적으로 업데이트하는 새로운 기술을 제안합니다.
사소해 보이는 설계 선택이 병리학 LLM 성능에 미치는 영향
LLM이 병리학 이미지 분석에서 전문 모델보다 뒤처지는 이유가 모델 자체의 한계가 아니라, 이미지 처리 방식의 사소한 설계 선택 때문임을 밝혀내고, 최적화된 설정을 통해 LLM 성능을 크게 향상시킬 수 있음을 보여줍니다.
FACTR 2: 저가형 로봇 팔의 외부 힘 감지 학습을 통한 정책 학습 개선
이 연구는 값비싼 센서 없이도 로봇 팔이 외부 힘을 감지하고, 이를 통해 로봇의 작업 학습 능력을 크게 향상시키는 새로운 방법을 제시합니다.
Doc-to-Atom: 문서에서 지식 원자 학습 및 구성
이 논문은 긴 문서를 처리하는 대규모 언어 모델의 비효율성을 개선하기 위해, 문서를 의미론적 지식 원자로 분해하고 필요한 원자만 선택적으로 활용하여 더 빠르고 정확하게 정보를 처리하는 새로운 방법을 제안합니다.
DIRECT: 로봇 플래너에서 테스트 시 컴퓨팅 자원을 언제, 어디에 할당해야 하는가?
이 논문은 로봇이 주변 환경을 인식하고 행동을 계획할 때, 인공지능 모델에 필요한 계산 자원을 효율적으로 배분하는 'DIRECT'라는 새로운 방법을 제안합니다. 이를 통해 로봇의 작업 성공률은 높이면서도 계산 비용과 시간을 크게 줄일 수 있습니다.
매니폴드 거듭제곱 반복법으로 MoE 라우터 재설계
MoE 모델의 핵심인 라우터를 전문가 행렬의 주요 특이 방향과 일치시켜, 더 효율적이고 안정적인 모델을 만들 수 있는 새로운 설계 원칙과 방법을 제안합니다.
생산 AI 에이전트의 런타임 거버넌스를 위한 5단계 참조 아키텍처
이 논문은 기업 AI 에이전트가 일으킬 수 있는 보안 위험을 관리하기 위해, 에이전트의 행동을 실시간으로 통제하고 감사할 수 있는 새로운 5단계 아키텍처를 제안합니다.
AI 개발 환경(IDE)에서의 규칙 분류 및 진화 연구
AI 개발 환경에서 사용되는 '규칙'들이 어떻게 분류되고, 시간이 지남에 따라 어떻게 변화하며, 개발에 어떤 영향을 미치는지 분석한 연구입니다. 개발자들은 아키텍처 규칙을 중요하게 생각하지만 실제로는 낮은 수준의 규칙을 많이 사용하고, AI 오류 수정 때문에 규칙을 자주 변경하며, 규칙 업데이트가 소프트웨어 품질을 크게 향상시키는 것으로 나타났습니다.
iOS 앱에서 LLM API 인증 정보 유출에 대한 실증 연구
iOS 앱에서 대규모 언어 모델(LLM) API 키가 광범위하게 유출되고 있으며, 개발자들의 보안 인식이 낮아 심각한 재정적 위험을 초래하고 있습니다. 이 문제는 해결이 더디게 진행되고 있어 플랫폼 차원의 보안 강화가 시급합니다.
'프롬프트 엔지니어링'은 진짜 기술이 아니다: 본질적인 역량에 대한 고찰
프롬프트 작성은 대화에 가깝고, 진정한 기술은 AI의 결과물을 판단하고 비판적으로 분석하는 능력에 있다.
주사위 놀이에서 LLM은 얼마나 신뢰할 수 있을까?
최신 대규모 언어 모델(LLM)은 쉬운 확률 문제는 잘 풀지만, 직관에 반하는 문제나 표현이 바뀌면 성능이 크게 떨어지며, 잘못된 정보에 취약하여 아직 진정한 확률적 추론 능력은 부족합니다.
UniSHARP: 단안 카메라를 위한 범용 선명 시점 합성 기술
UniSHARP는 일반 카메라부터 어안, 전방향 카메라까지 다양한 단안 카메라 이미지로 사실적인 3D 장면을 만들 수 있는 새로운 기술입니다. 기존 방법의 한계를 극복하고, 여러 종류의 카메라 이미지를 통합된 공간에서 처리하여 훨씬 더 선명하고 정확한 결과물을 제공합니다.
에이전토피아: 에이전트 사회에서의 장기적인 삶 시뮬레이션 및 학습
이 연구는 LLM 기반 에이전트들이 10년 동안 가상 사회에서 살아가며 인간처럼 성장하고 상호작용하는 모습을 시뮬레이션하고, 이 경험을 통해 LLM의 사회적 지능을 향상시키는 방법을 제안합니다.
MemDreamer: 긴 영상 이해를 위한 지각과 추론 분리, 계층적 그래프 메모리 및 에이전트 검색 메커니즘 활용
MemDreamer는 긴 영상 이해를 위해 영상을 직접 처리하는 대신, 계층적 그래프 메모리를 만들고 에이전트처럼 정보를 탐색하여 효율적으로 추론하는 새로운 AI 모델입니다.
사족 보행 로봇의 물체 조작을 위한 어포던스 기반 계층적 강화 학습
이 연구는 사족 보행 로봇이 스스로 물체를 조작할 수 있도록, 로봇이 물체와 상호작용할 수 있는 지점과 자세를 스스로 판단하게 하는 새로운 인공지능 학습 방법을 제안합니다. 이를 통해 로봇은 사람의 개입 없이도 다양한 물체 조작 작업을 수행할 수 있습니다.
스트리밍 힘 제어를 통한 스트리밍 비디오 생성
이 논문은 실시간으로 다양한 힘 입력에 반응하여 물리적으로 사실적인 비디오를 생성하는 'StreamForce'라는 새로운 AI 모델을 소개합니다. 이 모델은 기존 방식의 한계를 극복하고, 단일 GPU에서 초당 16.6프레임으로 빠르고 안정적인 비디오를 만듭니다.
탐지 모델 비교의 새로운 접근 방식: 'Differences in Detection (DnD)'
두 객체 탐지 모델의 성능 차이를 직관적으로 비교하고 설명할 수 있는 새로운 방법론 'DnD'를 제안합니다. 기존 지표를 보완하여 어떤 오류를 공유하고 어떤 오류에서 차이가 나는지 명확히 보여줍니다.
작업 불문 연속 학습을 위한 희소 부분 공간-전문가 공유
LLM이 새로운 것을 배우면서 이전 지식을 잊어버리는 문제를 해결하기 위해, 작업별 지식과 공통 지식을 분리하여 효율적으로 학습하고 기억하는 새로운 방법을 제안합니다.
텍스트 임베딩을 위한 숨겨진 특징 렌즈: 언임베딩 행렬의 재발견
대규모 언어 모델(LLM)의 텍스트 임베딩 성능을 저해하는 고빈도 단어의 영향을 줄여, 더 정확하고 효율적인 임베딩을 만드는 EmbedFilter라는 새로운 방법을 제안합니다.
추천 시스템 알고리즘 순위 매기기: 데이터셋 특성을 고려한 브래들리-테리 모델
추천 시스템 알고리즘의 성능 순위는 데이터셋에 따라 크게 달라지므로, 브래들리-테리 모델을 활용해 더 정확하고 일관성 있는 순위 매기기 방법을 제안합니다. 이 방법은 심지어 모델을 실행하지 않고도 새로운 데이터셋에서 알고리즘 순위를 예측할 수 있습니다.
AI 기반 고성능 컴퓨팅(HPC) 워크플로우 설계를 위한 12가지 빠른 팁
이 논문은 AI를 활용한 복잡한 고성능 컴퓨팅(HPC) 작업을 효율적으로 설계하고 실행하기 위한 12가지 실용적인 조언을 제공합니다. 기존 HPC 방식과 다른 AI 워크플로우의 특징을 이해하고, 데이터 관리, 자원 활용, 작업 조율 등의 문제를 해결하여 과학 연구를 가속화하는 데 도움을 줍니다.
AI 에이전트가 지식 노동을 어떻게 재편하는가: 자율성, 효율성, 그리고 범위
AI 에이전트가 지식 노동을 자동화하고 효율을 높이며 작업 범위를 확장하여, 사람들이 더 복잡하고 다양한 업무를 수행할 수 있도록 돕습니다.
다중 단어 표현 분류를 위한 지도 학습과 시연 기반 인컨텍스트 학습 비교
튀르키예어 관용구 분류에서 지도 학습 모델과 대규모 언어 모델(LLM)의 성능을 비교한 연구입니다. LLM은 프롬프트 구성에 매우 민감하며, 잘 설계된 시연(demonstration)을 통해 지도 학습 모델만큼의 성능을 보이거나 능가할 수 있음을 발견했습니다.
캐스케이드 데이터로부터 네트워크 복구: 편향 제거된 야코비안 기반 머신러닝 접근법
이 논문은 제품 채택이나 질병 확산처럼 연쇄적으로 발생하는 현상 뒤에 숨겨진 영향력 네트워크를, 확산 모델을 가정하지 않고도 정확하게 찾아내는 새로운 머신러닝 방법론 'CascadeNet'을 제안합니다. 시뮬레이션과 실제 코로나19 확산 데이터에서 기존 방법보다 뛰어난 성능을 보였습니다.
부분적으로 관측된 근전도 신호를 이용한 다관절 움직임 예측을 위한 생리학적 제약 근골격 신경망
이 논문은 일부 근육의 신호만으로도 여러 관절의 움직임을 정확하게 예측하고, 측정되지 않은 근육의 활동까지 추론하는 새로운 인공지능 모델을 제안합니다. 특히 무작위 움직임에서 기존 방법보다 뛰어난 성능을 보이며, 생리학적으로 타당한 근육 활동을 예측합니다.
저사양 엣지 기기에서 검증 가능하고 기밀이 보장되는 딥러닝 추론
저사양 엣지 기기에서 딥러닝 모델의 보안과 추론 결과의 신뢰성을 동시에 확보하는 새로운 기술 'VECODI'를 소개합니다. 이 기술은 'SHANGRI-LA'라는 새로운 실행 환경을 활용하여 모델을 보호하고, 적은 자원으로도 효율적인 보안 추론을 가능하게 합니다.
자율주행을 위한 장기 상황 인지 및 계획 정렬 토큰 압축 기술
자율주행 시스템이 복잡한 상황을 더 길게 기억하고 빠르게 판단하도록, 중요한 정보는 유지하면서 데이터 양을 줄이는 새로운 압축 기술을 개발했습니다.
물리 정보 기반 합성 이력을 활용한 콜드 스타트 태양광 발전량 예측을 위한 시계열 파운데이션 모델
새로운 태양광 발전소의 초기 발전량 예측은 데이터 부족으로 어려운데, 이 연구는 가상의 발전 이력을 만들어 시계열 파운데이션 모델이 정확하게 예측하도록 돕는 방법을 제안합니다.
코딩 에이전트의 폭발적 성장: 신규 GitHub 프로젝트에서의 도입 현황
새로운 GitHub 프로젝트에서 코딩 에이전트(AI 개발 보조 도구)의 사용이 이전보다 두 배 이상 급증했으며, 개발 과정에 더 깊이 통합되고 있습니다.
정렬, 분할, 무작위화: 국소 차분 프라이버시 하의 최적 이진 가설 검정
이 연구는 데이터의 프라이버시를 보호하면서 두 가지 가능한 분포 중 어떤 것이 데이터의 원천인지 가장 잘 판단하는 방법을 제시합니다. 데이터를 정렬하고 그룹으로 나눈 다음 무작위 응답을 적용하는 간단한 전략으로, 기존보다 훨씬 빠르게 최적의 프라이버시 메커니즘을 찾을 수 있습니다.
LLM 배틀 로얄: 벤치마크 점수가 아닌 '정렬 세금'이 승패를 갈랐다
11개 LLM의 배틀 로얄 게임 실험 결과, 기존 벤치마크 점수와 달리 '정렬 세금'이 모델의 실제 성능과 승패에 결정적인 영향을 미쳤다.
TailLoR: 매개변수 효율적인 연속 학습에서 주요 구성 요소 보호
TailLoR는 기존 모델의 중요한 정보(주요 특이 벡터)를 고정하고 덜 중요한 부분(특이값)만 업데이트하여, 새로운 지식을 학습하면서도 이전 지식을 잊지 않도록 돕는 효율적인 학습 방법입니다.
HANDOFF: 휴머노이드 로봇의 작업 공간 전신 제어 시스템
휴머노이드 로봇이 복잡한 작업을 수행할 수 있도록, 작업 계획과 전신 제어 사이의 인터페이스를 단순화하고, 여러 전문 제어기를 통합하여 효율적인 움직임을 가능하게 하는 새로운 제어 시스템 'HANDOFF'를 제안합니다.
Code2LoRA: 소프트웨어 진화 환경에서 코드 언어 모델을 위한 하이퍼네트워크 기반 어댑터 생성
이 논문은 코드 언어 모델이 저장소 전체의 맥락을 이해하도록 돕는 새로운 방법인 Code2LoRA를 제안합니다. 이는 저장소별 맞춤형 어댑터를 생성하여 모델이 코드 변화에 유연하게 대응하고, 기존 방식의 한계를 극복합니다.
TempoVLA: 속도 조절 가능한 시각-언어-행동 로봇 정책 학습
로봇이 위험도에 따라 움직임 속도를 스스로 조절하게 하는 새로운 AI 모델 'TempoVLA'를 개발했습니다. 이 모델은 훈련 데이터를 유연하게 조절하고 속도 조건을 입력받아, 빠르고 안전하게 작업을 수행할 수 있도록 돕습니다.
반복 게임에서 적응형 상대방과 함께하는 후회 최소화
이 논문은 게임 기록에 따라 전략을 바꾸는 적응형 상대방과의 반복 게임에서 플레이어가 자신의 선택을 후회하지 않도록 하는 새로운 측정 기준과 알고리즘을 제안합니다. 이를 통해 더 나은 협력적 결과를 얻을 수 있음을 보여줍니다.
PAR3D: 3D 장면 이해를 위한 부분 인식 표현을 갖춘 통합 3D-MLLM
PAR3D는 3D 환경에서 객체뿐만 아니라 그 구성 부분까지 이해하고 상호작용할 수 있도록 돕는 새로운 인공지능 모델입니다. 이를 위해 부분별 주석이 달린 데이터셋과 계층적 학습 방식을 도입하여, 기존 모델보다 더 세밀한 3D 장면 이해 능력을 보여줍니다.
복잡도 균형 확산 분할: 효율적인 생성 모델 학습
이 논문은 이미지 생성 모델의 학습 효율을 높이기 위해, 생성 과정의 복잡도에 따라 모델의 자원을 다르게 배분하는 새로운 방법론 'CBS'를 제안합니다. 이를 통해 모델의 성능은 유지하면서도 더 효율적인 학습 및 추론이 가능해집니다.
점진적인 인간-AI 텍스트 변환 과정을 위한 AI 텍스트 탐지 벤치마크: OpAI-Bench
AI가 글쓰기에 점점 더 많이 사용되면서, 인간과 AI가 함께 편집한 글을 AI가 썼는지 탐지하는 것이 중요해졌습니다. 이 연구는 인간이 쓴 글이 AI의 도움을 받아 점진적으로 수정되는 과정을 추적하고, AI가 쓴 부분을 다양한 수준에서 탐지할 수 있는 새로운 벤치마크를 제시합니다. 이 벤치마크를 통해 AI가 얼마나 개입했는지, 어떤 방식으로 수정되었는지에 따라 AI 텍스트 탐지 난이도가 달라진다는 것을 발견했습니다.
맘바(Mamba) — 트랜스포머를 대체할 '선형 시간' 시퀀스 모델
어텐션 없이 '선택적 상태공간(SSM)'으로 긴 입력을 선형 시간에 처리해 트랜스포머급 성능을 낸 새 아키텍처.
무엇이든 분할하는 AI — 이미지 속 객체를 잘라내는 'Segment Anything'
새 AI 모델과 역대 최대 분할 데이터셋으로, 어떤 이미지든 객체를 별도 학습 없이 정확히 잘라내는 기술.
어텐션만으로 충분하다 — 트랜스포머의 등장
순환·합성곱 없이 오직 어텐션만으로 구성한 트랜스포머가 번역 성능을 크게 높이고 훈련 시간을 단축.