Dr.부동산

[ 논문 ] Chat GPT가 연구 논문을 작성해 줄 수 있을까요? 본문

논문/논문 리뷰

[ 논문 ] Chat GPT가 연구 논문을 작성해 줄 수 있을까요?

anony mous 2025. 8. 25. 09:55

Chat GPT가 연구 논문을 작성해 줄 수 있을까요?
물론, 당신의 기준이 낮다면 그럴 수 있습니다. ChatGPT는 아무것도 이해하지 못합니다. 그저 "훈련"을 위해 게시된 거대한 문서 데이터베이스에 흔히 나타나는 패턴에 따라 단어를 조합할 뿐입니다. 저는 ChatGPT에 제가 과거 수업에서 내줄 법한 주제와 간단한 사실 관련 질문에 대한 논문을 쓰도록 요청하여 테스트했습니다. ChatGPT가 작성한 논문 5개 중 1개는 실제로 꽤 좋았습니다. 학부 과정에서 최소 B 학점을 받을 만했습니다. 간단한 사실 관련 질문을 다룬 5개 중 하나는 사실적으로 거짓일 뿐만 아니라 제가 물어본 질문에 대한 답도 아닌 완전한 날조로 구성되었습니다. (AI 설계자들은 이런 종류의 것을 AI의 "환각"이라고 부릅니다.) 다른 논문 하나는 적절한 주제에 대한 것이었고, 합리적이지만 지루한 답변을 제공했습니다. 하지만 그 논문은 관련된 주요 고려 사항을 제기하지 않았기 때문에 D 학점을 주었습니다.

마지막 논문은 ChatGPT의 심각한 결함 중 하나를 지적합니다. 바로 논리적 연결을 만들고 질문에 답하는 데 필요한 고려 사항을 판단하는 능력입니다. 저는 최근 매우 성공적인 부동산 개발업체의 보고서를 읽었는데, 그 개발업체는 ChatGPT에 현재 아파트 건설 투자에 가장 적합한 미국 부동산 시장이 어디인지 질문했습니다. ChatGPT는 텍사스 오스틴과 워싱턴주 시애틀을 선택했습니다. 개발업체는 이 두 시장이 과도하게 개발되어 현재 최악의 시장이라고 보고했습니다.

Chat을 사용하면 운이 좋을 때도 있습니다. 지금 논문을 쓰고 있는데, 제 분야의 유명 저자가 쓴 인용구를 인용하고 싶은데, 어떤 논문에 그 인용구가 실렸는지 기억이 나지 않습니다. Chat에 질문했더니 바로 답을 알려주더군요. Chat이 또 환각을 보는 건 아닌지 확인해 봤습니다. 하지만 Chat은 완벽하게 옳았고, 덕분에 많은 시간을 절약할 수 있었습니다. 이번에는 왜 Chat이 맞았을까요? Chat의 학습 데이터베이스에 바로 이 주제를 다룬 학부 논문이 있었기 때문입니다. 결국 운에 달린 문제입니다. 매우 정밀하게 구분된 질문은 더 나은 답변을 얻을 가능성이 높지만, 제 실험에서처럼 때로는 답변이 환각일 수도 있습니다. Chat에 모든 관련 단어를 연결하여 연결하는 매우 정밀하게 구분된 질문은 기존 문헌에서 널리 논의된 질문일 경우 최상의 결과를 얻을 가능성이 높습니다. (Chat은 시사에 대한 질문에는 답할 수 없으며, 항상 어느 정도 오래된 정보를 제공합니다.)

제 동료 중 한 명이 Chat의 기능에 대한 일련의 관련 질문을 통해 Chat을 테스트했습니다. Chat의 답변은 흥미롭고 모순적이었습니다. 저는 Chat이 결국 스스로 모순된 말을 했다는 것을 감지하고 "혼란을 야기한 것에 대해" "사과"하는 모습에 감명을 받았습니다. 앞서 설명한 제 실험에서 Chat이 "환각"을 경험했을 때, 무언가 잘못되었다는 것을 감지하고 제 질문에 대한 두 번째 답변을 생성했습니다(하지만 여전히 주제에서 벗어났습니다). 그런 다음 다른 방식으로 질문을 했더니 Chat에서 정답과 함께 "혼란을 야기한 것에 대해" "사과"를 받았습니다.

채팅은 도움이 될 수 있지만, 독창적이지는 않습니다. 획기적인 발견을 만들어낼 수는 없습니다. 때로는 완전히 틀릴 수도 있습니다. 주의해서 사용하고 그 한계를 이해해야 합니다. 채팅은 단지 단어를 조작하는 도구일 뿐이라는 점을 명심하세요. 완벽한 문법의 일반적인 패턴에 단어를 끼워 맞추는 것이죠. 채팅은 말 그대로 아무것도 모르고, 아무것도 이해하지 못하고, 아무것도 신경 쓰지 않습니다. 최근 개발자 중 한 명이 말했듯이, 채팅은 단어 예측 도구로 생각해야 합니다. 방대한 데이터베이스를 기반으로 어떤 단어가 서로 연관될 가능성이 가장 높은지 "추측"하는 것입니다.



Sure, it can do that, if your standards are low. ChatGPT does not understand anything at all. It just puts words together in patterns that commonly occur in the gigantic database of published documents that “trained” it. I have tested ChatGPT by asking it to write papers on topics that I might assign in my past courses, and on simple factual questions as well. One out of five papers that it produced was actually quite good—worth at least a B grade in an undergrad course. One of the five, dealing with a simple factual question, consisted of a complete fabrication that not only was factually false, but was not an answer to the question I asked. (The AI designers refer to this sort of thing as an “hallucination” on the part of AI.) One other paper was on the right topic, providing what sounded like a reasonable, but dull answer; but since that paper did not bring up the main relevant consideration, I gave it a grade of D.

That last paper brings up one deep failure of ChatGPT—it’s ability to make logical connections and to determine what considerations are relevant to answering a question. I recently read a report from a very successful real estate developer who tried asking the system which US real estate markets are the best ones right now for investing in apartment construction. ChatGPT picked Austin TX, and Seattle WA. The developer reported that those two markets are over-built, and are the worst two markets right now because of that.

Sometimes one can get lucky with Chat. I’m writing a paper right now in which I might want to cite a quote that I remember from a well-known author in my field, but I couldn’t remember in which paper that quote appeared. I asked Chat. It immediately came up with the answer. I checked to make sure Chat wasn’t hallucinating again. But Chat was absolutely correct, saving me a lot of time. Why was Chat correct this time? Because in its training database there was an undergrad paper that talked about this very thing. So, it’s a matter of luck. Very precisely delimited questions are more likely to get better answers, but sometimes the answers are hallucinations, as happened in my own experiment. Very precisely delimited questions, in which you give Chat all the relevant words to connect are likely to get the best results, provided that those questions are widely discussed in the existing literature from the past. (Chat can’t answer questions about current events, and will always be somewhat out of date.)

One of my colleagues tested Chat with a series of related questions about its own abilities. Chat’s responses were interesting and contradictory. I was impressed that ultimately Chat was able to detect that it had contradicted itself, and it “apologized” for “causing confusion”. In my own experiment, described at the top, when Chat “hallucinated”, it apparently detected that something had gone wrong, and it created a second answer to my question (but still off topic). Then I asked my question in a different way and got the right answer from Chat, along with an “apology” for “causing confusion”.

Chat can be helpful, but never original. It can’t produce a breakthrough discovery. Sometimes it’s just plain wrong. Use with caution and with understanding of its limitations. Keep in mind that it is just a manipulator of words—putting words into common patterns in perfect grammar. It literally knows nothing, it understands nothing, it cares about nothing. As one of its developers recently said, it should be thought of as a word predictor—it “guesses” which words are the most likely to be associated with each other, based on the vast database that has been fed into it.

출처 : https://www.quora.com/profile/Kenton-Machina