标签文章:#语音识别#

  • 用活人脑细胞造 AI 系统!语音识别已成功,可无监督学习|Nature 子刊

    用活人脑细胞造 AI 系统!语音识别已成功,可无监督学习|Nature 子刊 用活人脑细胞造 AI 系统!语音识别已成功,可无监督学习|Nature 子刊 用活人脑细胞造 AI 系统!语音识别已成功,可无监督学习|Nature 子刊

    由真实人脑细胞构建的“迷你大脑”和微电极组成的AI系统,已经能够进行语音识别——从数百个声音片段中准确认出某个特定人的声音的那种。最近,一项颇为前沿的类脑研究登上了Nature子刊。这个特别的AI系统甚至可以进行无监督学习:研究人员只是一遍遍播放音频片段,不提供任何形式的反馈来告诉系统答对还是错。最终,该系统在两天的训练之后,准确率直接从最初的51%升到了78%。这,究竟是怎么实现的?类器官神经网

    Echo Echo 2023.12.13 09:33 113浏览 0回复

    阅读更多
  • 苹果、微软、谷歌、亚马逊、Meta“五巨头”合作,将改善残疾人的语音识别

    苹果、微软、谷歌、亚马逊、Meta“五巨头”合作,将改善残疾人的语音识别

    IT之家10月3日消息,美国伊利诺伊大学(UIUC)宣布与苹果、微软、谷歌、亚马逊、Meta以及非营利组织合作,开展语音辅助功能项目,其目的是改善残疾人士的语音识别功能,以及AI算法未覆盖到的各种语音模式。据介绍,该项目将帮助患有肌萎缩侧索硬化(ALS)、帕金森氏症、脑瘫、唐氏综合症和其他影响说话的人。UIUC教授MarkHasegawa-Johnson表示:“语音识别应该对每个人都可用,其中包括

    Echo Echo 2022.10.03 20:36 254浏览 0回复

    阅读更多
  • 科大讯飞:与国内车厂合作,车载语音交互系统市占率超 60%

    科大讯飞:与国内车厂合作,车载语音交互系统市占率超 60%

    近日,科大讯飞在接受机构调研时表示,在智能汽车领域,公司与国内各大车厂保持了长期的合作,车载语音交互系统保持着60%以上的市场占有率。据了解,近日科大讯飞联合长安欧尚共同打造了全球首发的车外语音交互系统,从真实用车场景出发,解决用户停车、挪车、开门等用户场景中的痛点。例如,车主提前录入声纹,站在车外说一句“Z6,把车开出来”,欧尚Z6即可在狭窄的停车位上自动向前驶出。为了实现稳定高效的车外语音交互

    Echo Echo 2022.03.14 14:53 312浏览 0回复

    阅读更多
  • 不出声也能命令 Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行

    不出声也能命令 Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行 不出声也能命令 Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行 不出声也能命令 Siri!康奈尔大学华人团队开发无声语言识别项链,中文英文都行

    这,或许是现在跟Siri交流最潮的方式了——只需要动动嘴皮子,就能让它under你的control。没错,就是不需要出任何声音的那种。这就是来自康奈尔华人团队的最新研究成果 SpeeChin,无声语音识别。像这样:在没有声音的情况下,你能猜出来他在说什么吗(文末揭晓答案)?但在SpeeChin的加持下,现在的Siri、Alexa等就已经可以识别,而且还支持普通话和英文!是有种“此时无声胜

    Echo Echo 2022.02.16 15:34 317浏览 0回复

    阅读更多
  • Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)

    Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源) Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源) Meta 发布会读唇语的 AI,可提高嘈杂场景的语音识别准确率(已开源)

    借助读唇语,人类能够更容易听懂他人的讲话内容,那么AI也能如此吗?最近,Meta提出了一种视听版BERT,不仅能读唇语,还能将识别错误率降低75%。效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。而且与此前同类方法相比,它只用十分之一的标记数据,性能就能超过过去最好的视听语音识别系统。这种结合了读唇的语音识别方法,对于识别嘈杂环境下的语音有重大帮助。Meta的研究

    Echo Echo 2022.01.10 14:39 356浏览 0回复

    阅读更多
  • 《英雄联盟》S11 直播延迟 30 秒,窥见无障碍语音识别和失声者的辛酸

    《英雄联盟》S11 直播延迟 30 秒,窥见无障碍语音识别和失声者的辛酸 《英雄联盟》S11 直播延迟 30 秒,窥见无障碍语音识别和失声者的辛酸 《英雄联盟》S11 直播延迟 30 秒,窥见无障碍语音识别和失声者的辛酸

    直播延迟几十秒,网友竟然还说“真香”?!!你没听错,这发生在英雄联盟S11这种全球赛事上,而且,延迟高达30秒。要知道S11观众量可是千万级别,去年决赛最高同时观看人数就多达4595万人;像这种顶尖赛事,保证音、画质的低延迟本就应该是各大平台的“基本操作”,哪怕一点额外的延迟都是绝对不能忍的。拿前几天Dota2直播举例,延迟15分钟,网友们那可是群情激愤……而这回,S11直播,一个官方频道延迟高达

    Echo Echo 2021.10.15 14:55 351浏览 0回复

    阅读更多
  • 语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品

    语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品 语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品 语音识别大拿 Daniel Povey 发布新一代框架 Kaldi,有望年内应用于小米产品

    8月31日,DanielPovey以小米集团首席语音科学家的身份,正式推出了新一代Kaldi。DanielPovey是语音识别领域的执牛耳者,他主要开发和维护的开源工具Kaldi,是业界公认的语音识别框架的基石,他也被称为Kaldi之父。2019年Daniel离任约翰霍普金斯大学语言和语音处理中心教职,在Facebook、美团、滴滴、快手等一众互联网巨头抛来的橄榄枝中选择了小米,开始带领小米语音技

    Echo Echo 2021.09.02 11:49 374浏览 0回复

    阅读更多
  • 北京机场地铁全线开通语音购票,“喊一嗓子”就能买票

    北京机场地铁全线开通语音购票,“喊一嗓子”就能买票

    IT之家6月7日消息 北京首都机场线、大兴机场线七大地铁站点,近期已全线开通语音购票。乘客对着售票机说出模糊目的地,AI即可自动确定附近地铁站,并快速规划最优换乘方案。乘客选站所需时间,从平均15秒下降至1.6秒,购票体验大大提升。(一位乘客体验对着语音售票机说:我要去天安门看升旗)“很多初次抵京的外地还有老年乘客,不知道目的地对应的地铁站,或者不太会操作App,查站点、问路线、购票付款

    Echo Echo 2021.06.07 12:16 452浏览 0回复

    阅读更多
  • 科大讯飞公开新专利,可实现方言语音转换

    科大讯飞公开新专利,可实现方言语音转换 科大讯飞公开新专利,可实现方言语音转换 科大讯飞公开新专利,可实现方言语音转换

    IT之家4月14日消息 企查查App显示,4月13日,科大讯飞(002230)公开了一项名为“一种方言语音转换方法、装置、设备及存储介质”的专利,申请日期2020年12月,公开号CN112652309A。企查查专利摘要显示,本申请提供的方言语音转换方法可将目标说话人的源方言语音转换为符合目标说话人的说话特色的目标方言语音。根据专利申请书的内容,中国地域广阔,汉语的方言众多,汉族社会在发展

    Echo Echo 2021.04.14 16:14 432浏览 0回复

    阅读更多
  • 投资者 2013 年曾建议苹果收购语音识别 Nuance,当时 70 亿美元就能收购

    投资者 2013 年曾建议苹果收购语音识别 Nuance,当时 70 亿美元就能收购

    4月13日消息,据国外媒体报道,在知情人士透露微软洽谈收购语音识别服务提供商Nuance之后不久,两家公司就在官网宣布了确切的消息,微软与Nuance周一均在官网宣布,他们在当天达成了最终协议,微软将于每股56美元、总额197亿美元全现金收购Nuance,交易预计在今年完成。虽然Nuance已同微软达成了最终的收购协议,但有外媒在报道中提到,此前曾有投资者建议苹果收购Nuance。外媒在报道中表示

    Echo Echo 2021.04.13 18:52 544浏览 0回复

    阅读更多
  • 科大讯飞智能办公本 X2 将于 2 月 24 日发布

    科大讯飞智能办公本 X2 将于 2 月 24 日发布 科大讯飞智能办公本 X2 将于 2 月 24 日发布 科大讯飞智能办公本 X2 将于 2 月 24 日发布

    IT之家2月22日消息 科大讯飞今日官宣,讯飞智能办公本X2将于2月24日发布。讯飞智能办公本的主打卖点为语音录入,且搭配电子水墨屏和压感笔,以实现更高效的办公记录。从海报来看,讯飞智能办公本X2将会在拾音方面有所提升。上一代讯飞智能办公本X1搭载了10.3英寸的EInk柔性水墨屏,搭配Wacom原装电磁笔,重量为360克,存储容量为32GB。该机配备了双麦克风阵列,支持语音识别实时转写

    Echo Echo 2021.02.22 14:31 415浏览 0回复

    阅读更多
  • 美五大科技公司语音识别被指存偏见:黑人误识率比白人高

    北京时间3月24日晚间消息,据国外媒体报道,斯坦福大学的一项研究显示,亚马逊、苹果、谷歌、IBM和微软的语音识别系统存在种族差异,对白人和黑人语音的识别率有高有低。这项研究发表在《美国科学院院报》(PNAS)上,研究显示,来自世界五大科技公司亚马逊、苹果、谷歌、IBM和微软的语音识别系统,在白人用户中出现的错误,要比在黑人用户中要少得多。研究显示,这五大科技公司的语音识别系统在白人中错误识别单词的......

    Echo Echo 2020.03.24 20:01 441浏览 0回复

    阅读更多
  • 语音识别大拿Daniel Povey正式加入小米,将组团队开发下一代Kaldi

    IT之家10月19日消息 据小米集团副总裁、小米技术委员会主席@崔宝秋-小米消息,语音识别大拿DanielPovey正式加入小米,将组团队开发下一代Kaldi。崔宝秋表示,欢迎DanielPovey加入小米!小米“手机+AIoT”的强大生态,语音技术在这个生态中的重要地位,小米对技术和人才的重视,以及小米多年来深度拥抱开源的战略是吸引Dan加入小米的主要原因。欢迎更多的牛人加入我们!此外......

    Echo Echo 2019.10.19 10:03 426浏览 0回复

    阅读更多
  • 谷歌宣布开源Live Transcribe语音识别转文字工具

    昨日,谷歌在其开源博客中宣布开源 Android语音识别转录工具——LiveTranscribe的语音引擎(LiveTranscribeSpeechEngine),它旨在将语音或对话实时转录为文字,还能够为听障人士提供帮助。LiveTranscribe 是谷歌于今年2月推出的一款Android应用程序,它的语音识别由谷歌最先进的CloudSpeechAPI提供。但是,依赖于云引......

    Echo Echo 2019.08.18 09:18 477浏览 0回复

    阅读更多
  • Gboard输入法离线语音识别上线:目前仅限谷歌Pixel手机使用

    IT之家3月13日消息 今日,谷歌通过博客悄然宣布实时语音识别技术的突破。使用人工智能技术并利用其Pixel手机的神经处理功能,Gboard用户现在可以进行离线实时语音识别。图源:谷歌目前,如果用户在Pixel设备上使用Gboard,要进行语音识别并转化成文本,实时语音处理需要使用Wi-Fi或蜂窝数据连接进行。谷歌宣布,自从它首次引入神经学习来处理人类语音以来,它一直在继续开发软件架构,......

    Echo Echo 2019.03.13 22:45 560浏览 0回复

    阅读更多