蒙古语文中书面语和口语的区别在影响使用人工智能的体验[MNG&zh-CN]

赛努AI的功能其特点
哈妮AI可以用文字和语音输入对话;蒙语AI有翻译、语音合成和对话(问答)功能,所以它俩都属于对话式AI。但是赛努AI不同,目前没有对话功能,有机器翻译、图片理解、图片编辑和图片生成功能。
机器翻译、图片理解就是字面意思,没什么特别。图片编辑是类似以前的Chimee和Zurag应用程序,先选一个底图,再通过语音识别输入文字,将文字镶嵌在图片上。如果语音输入有误那么可以通过自己的回鹘式蒙古文输入法修改。
图片生成功能及其存在的问题
前面提到的功能其他产品也有,或者只是几种功能的整合。但是国内支持用回鹘式蒙古文下达指令的“图片生成”我还是第一次见。初次体验让我觉得它从设计逻辑上有些问题,我们的(蒙古)语文特性也在影响使用体验。
存在的问题
语音生图的逻辑是将声音识别为文字指令,再转换文字为有意义的代码指令,再去再去执行。这里的语音转换文字的步骤可能存在很多方面的漏洞。
例图及其指令:粉色的地毯上有棕色的摔跤靴

(图片截取自《SAInuAI》微信小程序)
可以观察到:
粉色在书面语中应该是“ ᠶᠠᠭᠠᠨ ”,日常大部分人说的“ ᠬᠤᠨᠳᠠᠨ ”严谨的寻根的话是“鸿雁的颜色”的意思,也就是“发亮的白色”。所以我故意试一下它会如何理解,结果是理解为了“粉色”。蒙古语口语中“紫色”和“棕色”的说法也不统一,与书面语有出处,这对图片生成可能是个难题。
我写的是“摔跤的靴子”,日常穿的和摔跤手穿的有些差别,所以我只想用“摔跤的”作定语,但是它总是给我画摔跤手。
其他轮次的使用中还发现,语音输入总是出现错误识别。
而且没有给用户纠错的机会,识别语音后直接扣除代币,输出结果。
这个叫“沙嘎(意为嘎拉哈)”的代币,最初提供了100个,之后的需要自己充值。所以说输入的语音过于口语化或者发音并非蒙古语标准音就会直接扣钱的同时给出错误结果,是否可以理解为“变相罚款”?!非常奇怪。希望以后的更新中更改这个机制。
先将用户的语音转换为文本,让用户对指令进行二次确认,提供用输入法对文本修改的权力。用户对指令达成共识后才执行生成的步骤、扣除代币。目前,一方面对不理想的结果买了单,另一方面像开盲盒一样的工程花时间等待,体验感较差。
存在的(天然)缺陷
中国境内的蒙古人日常使用的很多名词术语都不统一;人工智能理解起来成本高。蒙古语的口语和书面语本身有割裂感,在语音转文字上会出现歧义句,从而影响人工智能的理解偏差。
我是非计算机专业人士,不了解赛努AI对口语和书面语的对应是如何处理的。但是从功能、技术的基本逻辑去考虑的话我想有这些问题。
结语
近日我也看到了有“人工智能的发展会导致以后学校的存在没有必要”相关的帖子。我想有那一天也应该在很久的以后,看到这篇文章的你我很难看到。尤其现在的计算机处理任务依靠代码,顺应文本、书面语。只会说蒙古语口语是玩不转的,还是专心学好回鹘式蒙古文吧!
※(西里尔蒙古文的拼写逻辑较为接近口语,但是毕竟它不是中国境内的官方文字,这里就不展开了。文中的蒙古文都在指回鹘式蒙古文)


蒙公网安备15052402000125号

