第128章 手搓工具之神
  第128章 手搓工具之神
  洛北的思路很清晰:
  语音识別有现成的开源方案,比如阿里的funasr。大语言模型现阶段不少,不过闭源居多,他可以先花点小钱调用gpt看看效果。伺服器嘛,先用自己电脑顶著,不上云端,先做离线录音,回宿舍再联网处理。
  有了想法,说干就干。
  虽然原理简单,实际做起来洛北发现,需要处理的细节不少。
  一节课90分钟,如果上传无损的音频文件,体积高达几百mb。如何调整比特率和採样把录音压缩得儘可能小又不影响识別,是门有技术的活。
  不过洛北凭藉著“实用主义”的buff,只试了几次,很快就找到了最合適的参数。
  然后是手机端预处理,再到伺服器文件存储,接著用funasr將语音转为文字。
  再经过洛北搭建的工作流,搭配精心调校的提示词,传到大语言模型,返回指定的markdown格式文字。最后再转换成word或者pdf格式的笔记。
  而在这个过程中,提示词是重中之重,极大影响笔记的质量。
  所以在网上也被大家称呼为“炼丹咒”,能炼出什么品质的丹药,还真就要看炼丹师们的调教水平了。
  一开始,洛北给的提示词很简单:“你是一个专业的数学系助教,请將以下的课堂录音文本整理成结构清晰的笔记。要求:1.识別並修正数学术语的同音错误;2.使用latex
  格式输出所有公式;3.提炼核心知识点去除口语废话;4.输出为markdown格式。”
  但试了几次,靠著“实用主义”的稟赋,他很快发现光这样是不够的。
  所以洛北参考了网上范例,针对微积分这门课程,对提示词反覆做了很多调整,最后才得到满意的结果。