使用包含一百万个真实世界对话的大规模数据集来研究人们如何与法学硕士互动_资讯

加州大学伯克利分校的一个计算机科学家团队，与加州大学圣地亚哥分校的一位同事和卡内基梅隆大学的另一位同事合作，创建了一个包含100万个真实世界对话的大规模数据集，以研究人们如何与大型语言模型(llm)互动。他们在arXiv预印本服务器上发表了一篇论文，描述了他们的工作和发现。

在过去几年里，ChatGPT等法学硕士已经进入公共领域，为世界各地的用户提供了与人工智能支持的聊天机器人互动的机会。这种访问导致了人类和聊天机器人之间数百万次的“智能”对话，不仅导致了讨论，还导致了编程、文本写作和考试等活动的帮助。

在这项新研究中，研究团队想要了解与人工智能聊天机器人之间的互动类型，例如，这些对话中有多少是关于编程或相关话题的。为了找到答案，他们获得了人类与人工智能聊天机器人(其中25个)之间超过100万次真实对话的文本，然后按主题类型对其进行解析。

这些对话本质上是全球性的，涉及讲150种语言的人和他们的聊天机器人。为了更多地了解这种对话的本质，研究人员使用一个程序随机选择了10万个对话进行研究。

研究小组发现，大约一半的人工智能聊天机器人对话都集中在他们所描述的“安全”话题上，比如计算机编程、请求帮助撰写文本，甚至是园艺——最受欢迎的话题涉及解决软件错误和解决方案。

他们还发现，大约10%的此类对话涉及他们团队所描述的“不安全”话题——那些含有性或暴力内容的话题。例如，他们发现，很多例子表明，人们要求聊天机器人为他们提供色情故事或与他们进行性角色扮演。

研究人员建议，研究现实世界的法学硕士/人类对话可以帮助此类系统的制造商确定他们希望自己的产品被使用的方式，同时也可以发现旨在防止“不安全”使用此类产品的有效控制措施是如何起作用的。

更多信息:郑连民等，LMSYS-Chat-1M:一个大规模的现实世界LLM会话数据集，arXiv(2023)。DOI: 10.48550/ arXiv .2309.11998

?2023 Science X Network

引用:使用包含一百万个真实世界数据的大规模数据集对话，研究人们如何与法学硕士互动(2023年，10月16日)检索自https://techxploretgd/news/2023-10-large-scale-dataset-million-real-world-conversations.html此文档2023年10月16日作品受版权保护。除为私人学习或研究目的而进行的任何公平交易外，未经书面许可，不得转载任何部分。的有限公司内容仅供参考之用。

使用包含一百万个真实世界对话的大规模数据集来研究人们如何与法学硕士互动

相关推荐

相似问题

精选推荐