영화사랑section

CINELOVE.NET

	" 음성인식 " <-- 각 파트별 개요

PROFILE

CREATIVE

CELLULAR

전화문의

HP : 011)9491-7906

Tel : 02)908-0540

담당자 : 강완신

음성인식 - 1 (퍼베이시브 컴퓨팅과 음성인식)

인터넷이 보편화되면서 컴퓨터 사용환경에 많은 변화가 일고 있으며 이러한 변화는 현재 눈에 띄는 현실로 나타나고 있다.

개인용 PC에서 주로 이용하던 서비스가 훨씬 다양한 디바이스에서 이뤄지고 있고, 그로 인해 복잡하고 다양한 접속환경을 지원해야 하는 현실에 직면해 있는 것이다. 지금의 컴퓨터 환경은 어느 장치든, 어느 네트워크든, 어떤 데이터이든지 간에 언제나 사용할 수 있는 환경으로 급속도로 변화하고 있는 것이다.

현재도 PDA, 휴대폰 등을 통해 이미 인터넷서비스의 사용이 확산되고 있는 가운데 앞으로 이러한 환경에서는 사용할 수 있는 디바이스가 다양해질 수밖에 없을 것이다.

음성인식 기술의 부상

이처럼 편리한 세상이 도래하고, 서비스 제공자는 새로운 비즈니스의 기회를 창출하게 되지만 개발자는 이러한 것을 구현해야 하는 머리 아픈 일에 직면하게 된다. 그러면 이러한 변화가 어째서 음성인식이라는 기술이 중요한 요소로 떠오르게 하는지를 살펴보자.

기존의 PC라는 것은 입력 장치로서 기본적으로 타자기로부터 유래된 키보드를 사용하고 있으며, 마우스와 같이 책상이란 공간에서 사용되어 지도록 디자인되어 있었다.

하지만 퍼베이시브 컴퓨팅(Per-vasive Computing) 환경 에서는 디바이스들이 이러한 키보드나 마우스를 장착하기에는 적당하지 않은 크기이고, 사용 장소도 고정된 사무실이나 책상 위가 아닌 이동 중에 이용할 때가 많은 것이다.

여기서 전통적인 입력 및 컴퓨터와의 대화 채널이었던 키보드 및 마우스의 사용이 불편해 지는 문제가 대두된 것이다.

이것 뿐 아니라 PDA와 같은 디바이스는 손을 이용해 입력하기에도 불편한 상황에 직면하고 있다.

이러한 불편을 해소하고 원활한 디바이스의 사용을 위해 중요성이 더 부각된 기술이 음성인식 기술이라고 할 수 있다. 여기서 다시 한번 생각해 보자.

말은 대부분 사람들이 누구나 사용하는 기본적인 대화 수단이고 가장 편리한 도구인 것이다. 이것이 급변하고 있는 전통적인 입력장치의 불편한 컴퓨팅 환경에 응용된다면 더 말할 나위도 없이 편리할 것이라고 누구나 생각할 것이다.

임베디드 디바이스 음성인식

오늘날의 음성인식 방법은 여러 가지 방안이 제안되고 있는 가운데 다양한 방법이 현재 응용되어 지고 있고 또한 개발중에 있다.

그 중에서도 은닉 마르코프 모델에 기반한 통계적 방법은 현재 일반적으로 가장 우수한 성능을 보인다고 알려져 있다.

또한 통계적인 특성으로 인해 음성인식 결과의 후반 처리에 이행될 언어 처리나 의미 처리 등의 통계적인 모델과 잘 맞는 장점을 지니고 있어 현재 일반적으로 사용되는 방법이다. 음성인식은 <그림 2>와 같은 프로세스를 따르는 것이 일반적이다.

<그림 2>에서 보듯이 사람의 말을 인식하기 위해서는 음성신호가 들어오면 그것을 분석해서 음성특징을 추출해내는 청각적인 프로세싱과 해당언어에 맞게 언어 디코딩을 통해 말을 문서로 바꾸게 되는 것이고 이러한 것은 통계적 값을 이용하게 되는 것이다.

다시 돌아가서 현재의 PDA나 인터넷 전화기의 장치 특성을 살펴보자.

우선 처음에 지적한 바처럼 크기가 작고, 안에 내용을 들여다 보면 CPU의 계산 능력은 PC에 비해 턱없이 느리고, 메모리는 상대적으로 작다.

또한 보조기억 장치로는 보통 PC에서 쓰는 하드디스크는 사용하지 않고 플레시 ROM을 사용한다. 이러한 제한적인 리소스를 가진 장치에서 계산을 많이 필요로 하는 음성인식 프로그램을 PC에서와 같이 그대로 실행시킨다면 어떻게 될까.

마이크에 한마디하고 컴퓨터가 알아듣는데 걸리는 시간은 사용자의 인내를 필요로 할 것이다.

이러한 디바이스들의 고려해야 할 특징을 열거하면 다음과 같다.

- 다양한 종류의 실시간 동작 시스템 사용
- 다양한 하드웨어 플랫폼 공존
- 오디오 장치와 사용 코덱 표준 부재
- 메모리와 CPU의 파워 제한적

새로운 음성인식 소프트웨어 개발 한창

이러한 장치적인 특성과 사용 환경 등을 고려해 아이비엠의 비아보이스(Viavoice) 등 새로운 구조의 음성인식 소프트웨어가 개발되고 있는 등 관련 기술들이 점차 발전하고 있다.

이러한 임베디드 음성인식 소프트웨어는 확장이 용이하고, 어떠한 플랫폼에도 적용이 쉽다는 우수성을 지니고 있다. 또한 적은 리소스를 사용하면서 많은 기능을 제공하고, 높은 인식률을 보인다는 특징을 지니고 있다.

<그림 3>에서 보듯이 RAL(Real-time OS Abstraction Layer)을 바꿔주면 다른 부분의 변경이 필요 없이 어떠한 RTOS에도 적용될 수 있고, EAL(Embedded Audio Layer)을 오디오 디바이스나 코덱(CODEC)에 맞게 변경해주기만 하면 표준이 없는 현재의 상황에서 적절한 대처가 가능하다.

<그림 3>에서 보듯이 RAL(Real-time OS Abstraction Layer)을 바꿔주면 다른 부분의 변경이 필요 없이 어떠한 RTOS에도 적용될 수 있고, EAL(Embedded Audio Layer)을 오디오 디바이스나 코덱(CODEC)에 맞게 변경해주기만 하면 표준이 없는 현재의 상황에서 적절한 대처가 가능하다.

출처:데이터넷

음성인식 - 2 (임베디드 디바이스 음성인식)

[2002-06-12]

ASR(Automatic Speech Recognition) 시스템은 마이크와 같은 장치를 통해 시스템으로 입력된 음향 신호를 분석해 일련의 단어 토큰으로 바꾼다.

이러한 토큰들은 받아쓰기나 간단한 전화 걸기와 같은 기능을 제공하기 위해 애플리케이션에서 사용되기 쉽도록 구성된다.

음향 신호를 단어 토큰으로 변화하는 것은 신호의 특성을 뽑아내기 위해 수행하는 분석단계를 거친 후 각기 다른 음향 신호로 구성된 일련의 모델과의 비교작업을 하게 된다. 이러한 모델들은 단어의 시작과 끝에 있는 휴지음, 단어 그리고 단어를 더 분해한 음소를 나타낸다.

디코더는 입력신호를 분석해 그 분석 결과와 가장 잘 맞는 일련의 모델들을 찾아내게 된다

ASR

<그림 1>은 단어를 사용하는 시스템과 음소를 사용하는 시스템간에 입력 신호의 각기 다른 부분들이 어떻게 대응되게 되는지를 잘 보여주고 있다. 휴지음과 같은 토큰은 일반적으로 애플리케이션에 전달되는 결과에서는 제거되는 부분이다.

ASR 시스템에 의해 인식되는 단어들은 단어 사전에서 찾아진다. 이러한 단어 사전에 등록된 어휘의 개수가 늘어나면 모든 가능한 단어를 표현하기 위해 각 모델의 수와 복잡성도 따라서 증가하게 되고, 이것은 곧바로 시스템 자원을 더 많이 요구하게 된다.

따라서 ASR 시스템이 효과적으로 작동하기 위해서는 음향신호를 분석하고 연습(training)을 시켜 알맞은 단어나 음소 모델링 해야 되는 것이고, 이 모델들은 특정 화자를 위한 화자종속 모델과 일련의 화자 군을 대상으로 하는 화자 독립 모델로 나뉜다. 이때 일련의 화자군은 나이나 성별 혹은 지역으로 분류하는 것이 일반적이다.

한 사람이 같은 단어를 말하더라도 말할 때마다 약간의 차이점을 가지고 있고, 이것이 추출된 음향적 특징에서도 다양한 영향을 미치기 때문에 이러한 다양성이 음성인식시스템이 오인식을 하게 되는 결과를 가져오게 되는데 여기서 이러한 요소와 더불어 언급할 것은 우리가 음성인식시스템을 통해 구현해야 될 애플리케이션에서 인식해야 될 단어들 중에 음성적으로 비슷한 구성을 가진 것이 있다면 그러한 단어들 사이에서 잘못 인식될 확률도 상대적으로 높아지게 된다.

음성인식시스템에서 현저하게 나타나는 기능상의 차이점이라고 한다면 연속 음성인식이냐 아니면 고립 단어인식이냐 하는 것이다. 이것의 차이를 결정 짓는 것은 단어와 단어 사이에서 일부러 말하는 것을 쉬느냐 그렇지 않느냐 하는 것이다. 종합적으로 음성인식시스템의 기능을 구분해 보면 <표 1>과 같다.

<표1> 음성인식 시스템 기능 구분
파라미터 (Parameter)	음역 (Range)
발성모드	고립단어, 연속음성
매체	마이크, 유선전화, 무선전화
언어모델	문맥의존, 유한상태 그래마
발성 스타일	낭독체, 대화체, 자연음성
어휘	소(<99), 중(<999), 대(≥1000)
등록	화자 종속, 화자 독립
단어 혼잡도	낮음(<10), 높음(>100)
SNR (신호잡음 대 비율)	높음(>30dB), 낮음(<10dB)

인식 대상 작업의 어려운 정도를 알기 위한 일반적인 방법으로는 어휘의 수와 언어 모델을 결합시킨 방법으로 언어 모델을 적용시킨 후, 각 단어 다음에 올 수 있는 단어의 수를 기하학적 방법으로 정의한 혼잡도를 이용하는 방법이 있다. 그리고 음성 인식 시스템에 영향을 주는 항목들로는 주위의 소음, 마이크 종류에 따른 음향적 특성 그리고 위치에 따른 외부적은 요인들도 있다.

음성인식 구현 사례

음성인식 제품군중에서 임베디드 시스템에 사용되는 제품들 중 제한된 리소스를 가진 장치인 이동전화기 등의 휴대 기기용으로 출시되는 제품들이 많이 있다. 이중 IBM의 임베디드 비아보이스 모바일 디바이스 에디션(Embedded Viavoice Mobile Device Edition, MDE)을 가지고 어떻게 제한된 시스템 리소스를 가지는 디바이스에서 음성인식이 구현되는 지에 대해 살펴보자.

MDE는 작은 용량의 어휘만을 사용하고 화자 독립 모드와 화자 종속 모드를 지원한다. 어휘의 양은 사용할 수 있는 메모리에 달려있고 동적으로 사용될 어휘를 선택해서 쓸 수 있게 한다. 화자 종속 모드에서는 대략적으로 50단어, 화자 독립 모드에서는 20단어 정도가 적당한 크기라고 보면 된다. 또한 사용자가 스스로 자신에 종속적인 음성인식 모델을 작성할 수 있도록 프로그램을 제공한다.

주요 특징으로는 적은 연산 능력과 메모리 사용, 16비트 프로세서에 적합하고, 고립단어 혹은 구문을 인식하고 주위 잡음에도 높은 인식율을 제공한다. 또한 음성 모델로 단어나 구문을 사용하는 한편 음성 모델로 쓰이는 각 어휘 세트를 동적으로 선택해 구현할 수 있고 손쉽게 포팅(porting)이 가능하다는 특징이 있다.

플랫폼에 특정한 모듈 개발

■ 오디오 모듈

일례로 MDE의 오디오 모듈은 단일 순환 버퍼를 사용한다. 이 버퍼는 오디오 입력이 리얼 타임으로 계속할 수 있게끔 해주는 역할을 하며 낮은 계산 능력을 가진 기계에서 사용되기 전에 오디오 데이터가 복제되는 것을 피하게 해준다.

오디오 모듈은 오디오 하드웨어로부터 입력된 데이터를 순환 버퍼에 채우고, 계속적으로 오디어 입력이 가능하도록 현재 프로세싱에 관련없이 입력 오디오 데이터를 읽어들인다. 또 입력 오디어 데이터를 필요하면 PCM으로 변환하고, 코어 라이브러리가 오디오 데이터를 직접 읽어들일 수 있도록 하는 등의 기능을 한다.

■ 스토리지 모듈

스토리지 모듈은 MDE가 적용돼는 플랫폼간에 각 모델들이 저장되고 사용되기 전에 메모리에 적재되는 일련의 방법들에 유연성을 부여하기 위한 목적으로 구현이 된다.

따라서 이 모듈은 적절한 스트링을 사용해 어떠한 저장 장치를 사용하던지 간에 워드 모델을 액세스 할 수 있도록 한다. 이때 스트링은 패스나 파일이름을 사용할 수 있다. 워드 모델 테이블에서 각 워드 모델의 주소를 제공받아 음성인식을 할 때 사용하게 된다.

또한 파일을 읽어 메모리로 적재하거나 롬에 있는 주소를 찾기 위해 각 스트링으로 구분돼는 워드 모델의 실제 데이터가 있는 주소를 알아내는 작업을 수행한다. 네이티브 인디안(native-endian) 포맷으로 메모리에 워드 모델을 적재하고 체크섬(checksum) 등을 수행하게 된다.

시스템 요구사항

■ 계산 능력
다음의 <그림 3>을 참고하면 대략 5∼10MIPS 정도의 계산 능력을 요구한다. 이 수치는 얼마나 작은 연산 능력만을 요구하는 지를 잘 나타내 주고 있다.

■ 메모리
권고되는 메모리의 크기는 128KB 롬과 128KB 램이다. 이러한 메모리의 크기는 인식해야 할 단어의 수에 크게 의존한다.

■ 저장 용량
50모델 당 대략 32KB의 용량을 요구한다. 이것은 플래시나 디스크 혹은 롬 등으로 구현된다.

■ 오디오 입력
16비트 오디오 데이터에 샘플레이트는 8KHz를 사용하도록 디자인되어 있다.

■ 적용 플랫폼
셀룰러폰, PDA, 자동차, 셋탑박스 등에 적용이 가능하다.

■ 적용 가능 애플리케이션
적은 수의 단어를 사용하는 작업을 처리하는 용으로 적당하다. 일반적으로는 음성 전화걸기, 디바이스의 기능을 음성으로 작동시키는 보이스 매크로 등을 이용한 응용 프로그램에 적합하다.

개발자들의 고려 사항

이상으로 휴대 전화와 같은 장치에서 적용할 수 있는 임베디드 음성인식에 관해 제품 사례를 들어 살펴봤다.

이러한 음성인식 기능을 이용한 애플리케이션을 만들어야 하는 개발자들이 제일 먼저 고려해야 할 것은 수행시킬 일에 대한 정확한 정의와 거기에 맞는 단어의 확정, 그리고 무엇보다 각 단어간에 음성적으로 차이점을 명확하게 하는 것이다.

출처:데이터넷

음성인식 - 3 (분산 음성인식이란?)

[2002-06-12]

필자는 요즘 새로 산 포켓PC를 가지고 여러 가지 다양한 용도에 관해 궁리를 해보았다. 역시 많이 사용해 손에 익혀야 능숙하게 필기체 인식도 시킬 수 있고 소프트 키보드도 사용해 입력을 수월하게 할 수 있는 듯하다.

무엇보다 PDA에 일정 관리라던가 메모장 등의 기능을 자주 써야 수첩 대용으로도 활용하는데 습관이 되고 좀 더 일상 활동에 적극적으로 이용할 수 있고, 이것을 응용해 현재의 한계를 극복하고 기능을 더 확장하는 방법은 없는 지에 관한 아이디어도 생길 것이다.

이러한 측면에서 음성 인식이란 기능을 이용하는 사용자로서 지난 호에서 살펴보았듯이 장치의 한계성으로 인해 갖는 여러 가지 상황을 극복하는 방법에 대해 궁리를 해보았다.

분산 음성인식이란?

PDA도 PC에서의 경우와 같이 급속도로 발전해 계산능력과 저장능력 및 메모리의 크기가 많이 향상되기는 했으나 이동 중의 사용이라는 특수한 목적으로 앞으로도 기능에 제한이 있으리라는 것은 분명할 것으로 보인다. 이러한 점 때문에 컴퓨터 환경과 더불어 급속도로 발전하고 있는 무선 네트워크 환경에 관심이 가고 사람들이 많이 기대를 하게 되는 것이 아닌가 하는 생각이 든다.

빠른 속도와 안정성을 보장하는 무선 네트워크 환경이라면 PDA와 같은 모바일 컴퓨터가 그 자체의 컴퓨팅 파워만을 이용해 모든 기능을 수행하는 것이 아니라 서버나 데스크탑 PC와 같은 고성능의 컴퓨터와 연결되어 역할을 분담하는 것이 가능하지 않을까 하는 것이다.

이러한 측면에서 현재까지 눈부시게 발전된 컴퓨팅과 무선 네트워크 통신의 결합은 우리에게 새로운 방식의 컴퓨팅 환경을 가능하게 해준다. 그리고 이것은 음성인식 기능을 이용하는 모바일 컴퓨팅 환경의 사용자에게 큰 이익을 가져다 줄 수 있는 가능성을 내포하고 있다고 하겠다.

지금 바로 언급한 컴퓨터와 무선 네트워크 통신을 이용해 PDA가 가지는 한계성을 극복하고 음성인식 기능을 구현하자는 것이 바로 분산 음성인식(Distributed Speech Recognition)인 것이다.

분산 음성인식과 무선 네트워크 기술 접목

분산 음성인식은 음성인식을 위한 다단계 프로세스 중에서 일부는 모바일 컴퓨터 장치에서 하고, 나머지 작업은 컴퓨팅 파워가 좋은 서버에서 수행하게 한 다음 그 결과를 다시 모바일 컴퓨터가 받아 사용자에게 결과를 전달하는 일련의 작업인 것이다.

여기서 중요한 점은 사용자는 컴퓨터가 음성인식을 위해 어떠한 작업을 수행하는 지를 인지할 필요 없이 마치 모바일 컴퓨터에서 모든 작업이 이뤄져 음성이 인식된 결과를 받아 보게 된다는 것이다.

현재의 무선 네트워크 기술 중에서 블루투스(Bluetooth)를 간단히 살펴보자.

이 기술을 사용하는 장치는 단지 0.1W의 전원이 있으면 되고, 컴퓨팅과 통신을 동시에 지원하도록 설계됐기 때문에 높은 품질의 음성과 데이터가 동시에 전달되는 속도를 721Kbps까지 낼 수 있다.

또한 히든 컴퓨팅(Hidden computing) 사용 모델이 적용되도록 한 구조 때문에 사용자의 눈에 띄지 않는 컴퓨터와 사용자의 모바일 기기와 자동으로 연결이 되어 작업을 수행하는 것이 가능하게 한다.

따라서 이러한 블루투스의 기술 특성이 여러 무선 네트워크 기술 중에서 좀 더 분산 음성인식에 적합하다고 할 수 있겠다. 물론 구현하기에 따라서 다른 무선 네트워크 기술도 충분히 실현 가능하다.

모바일 디바이스에서의 분산 음성인식

분산 음성인식 측면에서 모바일 디바이스에 대해 살펴보면 이미 PDA와 같은 모바일 컴퓨터에서 가능한 음성인식 소프트웨어는 시장에 출시돼 있는 상태다. 하지만 현재까지의 음성인식 모델은 스탠드 얼론(standalone)이고 메모리 공간의 제약으로 오디오 압축으로 인해 인식률을 떨어뜨리고 있다.

이러한 PDA에서 음성인식을 위해 앞 단계에서 실행해야 하는 음성 특징 추출(speech feature extraction)을 수행하는 것은 상당히 작은 컴퓨팅 파워만으로 가능하다. 또한 이 음성 특징에 대한 데이터 스트림(Data Stream)은 PCM이나 웨이브(Wave) 등과 같은 오디오 파일보다는 훨씬 작은 크기다.

일반적인 음성 샘플은 11Khz에 8~16비트 폭을 가진다. 그 것을 계산해보면 대략적으로 일 초당 11,000~22,000바이트 정도의 크기가 된다. 보통 이 데이터를 압축해서 처리하게 되는데 이 때 크기는 10% 정도로 줄게 된다.(2,200바이트/초 또는 17.6Kbits/초).

여기에 음성 특징의 데이터 스트림(speech feature data stream)을 압축하게 되면 일 초당 4.5~6Kbits로 줄게 된다. 이 크기는 기본 16비트 11Khz 샘플 오디오의 1/35 크기가 되는 것이다. 즉 오디오 데이터를 압축한 후에 PDA 자체에서 처리하면 인식률도 저하되고 모바일 장치의 컴퓨팅 파워도 많이 사용하게 되고 또한 장치의 제한으로 인식할 수 있는 범위도 제한을 받게 된다.

음성 특징의 데이터 스트림을 추출하는 과정을 수행한 이후 그 데이터 스트림을 압축하는 것까지만 PDA에서 수행하고 나머지 부분은 압축된 음성 특징의 데이터 스트림을 무선 네트워크를 통해 서버나 성능이 더 좋은 컴퓨터로 전송해서 실행하게 되어 오히려 인식의 정확성도 높아지고, PDA의 활용성도 좋아지게 되는 이점이 실현되는 것이다.

분산 음성인식 가상 시나리오

가상의 시나리오를 들어서 설명한다면 방사선과의사인 K씨는 환자의 MRI 결과를 뽑아서 본 후 그 결과를 평소 가지고 다니는 PDA에 녹음을 하고, 작업을 다 마친 후에는 녹음된 데이터가 저장 플래시 메모리 카드를 PDA에서 빼내 간호사에게 준다. 회진을 마친 후에 자기의 자리에 돌아오면 녹음된 데이터에서 받아 쓰여진 내용이 간호사의 확인 검증 후 보고서 형태로 PC 화면에 나타나게 된다.

이러한 일이 가능하게 되려면 기계 장치들은 어떠한 일들을 수행하게 되는 것일까?

먼저 PDA에서는 받아들여진 음성을 분석하여 음성 특징의 데이터 스트림을 추출을 수행한 후 그 값들을 압축해 저장하게 된다. 이 데이터가 저장된 메모리 카드를 간호사가 받아서 PC에서 실행되는 데스크탑용 음성인식 소프트웨어를 통해 문서로 변환해 보고서를 완성하게 된다.

그러면 이 보고서는 담당의사의 컴퓨터에 전달되어 볼 수 있게 되는 것이다. 여기서 중요한 컴포넌트는 음성 특징의 데이터 스트림을 추출과 압축을 수행하는 PDA용 모듈과 그 데이터를 가지고 실제 문장으로 받아쓰게 하는 음성인식 소프트웨어이다.

이 경우에는 네트워크 인프라가 전혀 고려가 안된 상태이지만 여기에 네트워크 환경을 고려하면 다음의 시나리오가 가능하게 된다.

의사인 K씨는 무선 네트워크를 통해 통신이 가능한 옵션 기기를 사서 PDA에 장착하였다. 이제 박 씨가 MRI 사진을 보고 디바이스에 그것에 대한 결과를 PDA에 받아쓰기를 시킨다. 음성 데이터는 PDA에서 바로 분석되어져서 데스크탑 음성인식 소프트웨어로 전송되어 진다.

전송된 데이터를 바탕으로 문서을 만든 후 컴퓨터가 간호사에게 그 사실을 알려준다. 간호사는 만들어진 문서를 보고 확인 검증한 후 바로 최종 리포트를 완성해 박 씨의 PC로 전송한다. 이즈음 K씨는 세 번째 MRI 사진을 보고 있고, 자신의 PC에는 벌써 첫 번째 MRI 결과에 대한 리포트가 K씨의 검토를 기다리고 있다.

이 경우에 우리는 작업이 실시간으로 시간 효율적으로 사용될 수 있음을 알 수 있다. 이렇게 네트워크를 통해 분산 음성인식이 실현되면 시간을 절약하고 PDA에서는 힘든 문장의 받아쓰기와 같은 기능을 써서 더욱 효율적으로 결과를 낼 수 있게 된다.

테크놀러지 컴포넌트

앞에서 살펴본 제품군 및 컴포넌트를 통해 우리는 보다 편리한 음성인식 환경을 구성하고 이용해 여러 가지 다양한 비즈니스를 창출할 수 있을 것으로 기대하고 있다.

마지막으로 이러한 분산 음성인식이 가능하도록 하는 컴포넌트들에 대해 필자의 회사가 가지고 있는 것을 위주로 설명을 하자면 다음과 같다.

■ 비아보이스 스피치 피처 익스트랙션

이 컴포넌트는 디지털 음성을 mel cep-strum 값으로 바꾼다. 이때 입력된 신호를 작은 프레임으로 나누게 되는데 대략 10~20ms 단위로 쪼개어 fast fourier tr-ansform을 수행하게 된다. 이때의 출력 값은 입력된 음성의 가능한 음소를 추정하는데 사용하게 된다. 이 기능은 음성인식 엔진의 한 부분으로 모바일 디바이스에서 이러한 기능을 수행하는 다양한 제품군이 있다.

■ 비아보이스 스피치 피처 컴프레션

이 컴포넌트는 추출된 mel cepstrum 값을 압축해 작은 데이터 스트림으로 변환시키는데, 그 목적은 유선이나 무선네트워크 상에서 상호 전달이 용이하도록 하는데 있다. 여기에다 추가적으로 음성 데이터를 재구성할 수 있는 정보를 넣게 된다. 이때 압축된 데이터 스트림은 무선환경에서는 초당 4.5∼6Kbits 정도를 전달할 수 있는 대역폭(bandwidth)이 필요하게 된다.

■ 임베디드 비아보이스 MDE

임베디드 비아보이스 모바일 디바이스 에디션(Embedded Viavoice Mobile Device Edition, MDE)는 작은 용량의 어휘만을 사용하고 화자 독립 모드와 화자 종속 모드를 지원한다. 어휘의 양은 사용할 수 있는 메모리에 달려있고 동적으로 사용될 어휘를 선택해서 쓸 수 있게 한다.

화자 종속 모드에서는 대략적으로 50단어, 화자 독립 모드에서는 20단어 정도가 적당한 크기라고 보면 된다. 또한 사용자가 스스로 자신에 종속적인 음성인식 모델을 작성할 수 있도록 프로그램을 제공한다.

■ 비아보이스 데스크탑 버전

현재는 PC상에서 받아쓰기(Dictation) 기능 지원에서 발전해 향후 분산 음성인식을 위해 비아보이스 스피치 피처 컴프레션 컴포넌트로부터 전달된 데이터 스트림을 처리하기 위한 기능을 추가 구현하고 있는 중이다.

■ 웹스피어 보이스 서버

기본적으로 e-비즈니스에 음성인식 기능을 추가로 구현하기 위해 개발된 것으로 서버 단에서 기존 전화나 VoIP(Voice over IP)에서 들어온 데이터를 통해 음성을 인식할 수 있는 다양한 확장성 및 유연성을 갖추고 있으며, VoiceXML을 기본으로 지원한다.

출처:<데이터넷>

최종편집일 2003년 2월 19일 강완신